word2md-cli 发布:在终端里把 Docx 转成 Markdown
Word2MD 推出命令行版本,专为批量处理、CI 流水线和脚本自动化场景打造。npx 一行命令即用,内置可选的 AI 图片 OCR。
2026 年 4 月
Word2MD.net 一直专注于在浏览器里做快速、隐私友好的 docx-to-markdown 转换。但过去几个月我们反复听到同一个诉求:「能不能自动化?」开发者想在 CI 里转换上百个文件,写作者想把脚本嵌进发布流水线,AI 团队想把内部文档批量预处理成 Markdown 喂给 RAG 系统。于是我们推出了 word2md-cli —— 一个轻量的 Node.js 命令行工具,把相同的转换引擎搬到了你的终端。
一行命令装完即用
零配置。用 npx 按需拉取并运行:
npx word2md-cli input.docx
就这样 —— 同目录生成 input.md。想全局装?
npm install -g word2md-cli
word2md input.docx
它能做什么
单文件转换
word2md input.docx # → input.md (同目录)
word2md input.docx -o custom.md # 自定义输出路径
word2md input.docx --stdout # 管道给其他命令
--stdout 很适合和其他工具组合:
word2md report.docx --stdout | pandoc -f markdown -t html -o report.html
整目录批量转换
word2md ./docs/*.docx -d ./markdown/
非常适合把 SharePoint 导出、Confluence 存档或 Google Docs 下载的旧文档批量迁移到现代静态站点。
提取图片中的文字(OCR)
加 --ocr 启用 PaddleX 图片 OCR。截图、示意图、扫描页里的文字都会被识别并内联到 Markdown:
export PADDLEX_OCR_URL="https://..."
export PADDLEX_OCR_TOKEN="..."
word2md input.docx --ocr --ocr-concurrency 4
也可以用参数直接传:
word2md input.docx --ocr \
--paddlex-url "https://..." \
--paddlex-token "xxx"
纯文本输出
剥掉 Markdown 语法,留干净文字 —— 适合喂给 LLM 流水线:
word2md input.docx --format text -o plain.txt
CI/CD 集成
放进 GitHub Action,自动转换仓库里新提交的 docx:
- name: Convert Word docs to Markdown
run: npx word2md-cli docs/*.docx -d site/content/
配合 Astro、Hugo 或 Next.js,就是一个接收 Word 输入、自动更新的文档站点。非技术同事继续用 Word 写,工程师继续用 Markdown 构建,双赢。
CLI vs Web 版
| 能力 | Web 版 | CLI |
|---|---|---|
| 基础转换 | 浏览器本地 | 本地 Node.js |
| 批量处理 | 拖多个文件 | Glob、脚本 |
| 图片 OCR | 内置 API | 自带 PaddleX 凭证 |
| 自动化 | ❌ | ✅ 管道、定时、CI |
| 实时预览 | ✅ | ❌(管道给查看器) |
转换引擎完全一样(mammoth + 自研后处理),输出效果一致。CLI 只是把它变成可脚本化的形态。
开源
word2md-cli 采用 MIT 协议,仓库在 GitHub。欢迎提 issue、反馈功能、提 PR。代码刻意写得小 —— 大约 150 行 TypeScript —— 方便审阅、fork 或基于它扩展自己的规则。
下一步计划
--watch模式:文件保存时自动转换--api-key直接调 Word2MD.net 账号做 OCR(免管 PaddleX 凭证)- 更多输入格式:PDF、RTF、ODT
对优先级有想法?到 GitHub 提给我们。
先去试试:
npx word2md-cli some.docx
30 秒后你就有 Markdown 了。