MarkItDown - 微软开源文档转 Markdown 工具

MarkItDown - 微软开源文档转 Markdown 工具


微软开源的 Python 工具,一键将 PDF/Word/Excel/PPT 等文件转换为 Markdown,支持 OCR 和 MCP

介绍

MarkItDown 是微软开源的轻量级 Python 工具,专门用于将各种文件和 Office 文档转换为 Markdown 格式,方便在 LLM 和文本分析流程中使用。

支持的格式

类型格式
文档PDF、Word (DOCX)、PowerPoint (PPTX)、Excel (XLSX/XLS)
网页HTML、YouTube 链接
图片支持 EXIF 元数据和 OCR 文字识别
音频WAV、MP3(语音转文字)
其他CSV、JSON、XML、EPub、ZIP

核心特点

  • 保留文档结构:保留标题、列表、表格、链接等 Markdown 格式
  • LLM 优化:Markdown 对 GPT-4o 等主流 LLM 友好,token 效率高
  • MCP 支持:提供 Model Context Protocol 服务器,可与 Claude Desktop 等集成
  • 插件扩展:支持第三方插件,如 OCR 插件可用 LLM Vision 提取图片文字
  • Azure 集成:支持 Microsoft Document Intelligence 进行高精度转换

使用方式

适用场景

  • RAG 知识库构建前的文档预处理
  • LLM 对话中的文件内容提取
  • 文档内容分析和文本挖掘
  • 批量文档格式转换

微软出品,MIT 协议开源。

1600举报0Xiao.Xi14天前
点击获取 ^_^

暂无评论