
MarkItDown - 微软开源文档转 Markdown 工具
微软开源的 Python 工具,一键将 PDF/Word/Excel/PPT 等文件转换为 Markdown,支持 OCR 和 MCP
介绍
MarkItDown 是微软开源的轻量级 Python 工具,专门用于将各种文件和 Office 文档转换为 Markdown 格式,方便在 LLM 和文本分析流程中使用。
支持的格式
| 类型 | 格式 |
|---|---|
| 文档 | PDF、Word (DOCX)、PowerPoint (PPTX)、Excel (XLSX/XLS) |
| 网页 | HTML、YouTube 链接 |
| 图片 | 支持 EXIF 元数据和 OCR 文字识别 |
| 音频 | WAV、MP3(语音转文字) |
| 其他 | CSV、JSON、XML、EPub、ZIP |
核心特点
- 保留文档结构:保留标题、列表、表格、链接等 Markdown 格式
- LLM 优化:Markdown 对 GPT-4o 等主流 LLM 友好,token 效率高
- MCP 支持:提供 Model Context Protocol 服务器,可与 Claude Desktop 等集成
- 插件扩展:支持第三方插件,如 OCR 插件可用 LLM Vision 提取图片文字
- Azure 集成:支持 Microsoft Document Intelligence 进行高精度转换
使用方式
适用场景
- RAG 知识库构建前的文档预处理
- LLM 对话中的文件内容提取
- 文档内容分析和文本挖掘
- 批量文档格式转换
微软出品,MIT 协议开源。
暂无评论
