# MarkItDown - 微软开源文档转 Markdown 工具 > 微软开源的 Python 工具,一键将 PDF/Word/Excel/PPT 等文件转换为 Markdown,支持 OCR 和 MCP ## 介绍 MarkItDown 是微软开源的轻量级 Python 工具,专门用于将各种文件和 Office 文档转换为 Markdown 格式,方便在 LLM 和文本分析流程中使用。 ## 支持的格式 | 类型 | 格式 | |------|------| | 文档 | PDF、Word (DOCX)、PowerPoint (PPTX)、Excel (XLSX/XLS) | | 网页 | HTML、YouTube 链接 | | 图片 | 支持 EXIF 元数据和 OCR 文字识别 | | 音频 | WAV、MP3(语音转文字) | | 其他 | CSV、JSON、XML、EPub、ZIP | ## 核心特点 - **保留文档结构**:保留标题、列表、表格、链接等 Markdown 格式 - **LLM 优化**:Markdown 对 GPT-4o 等主流 LLM 友好,token 效率高 - **MCP 支持**:提供 Model Context Protocol 服务器,可与 Claude Desktop 等集成 - **插件扩展**:支持第三方插件,如 OCR 插件可用 LLM Vision 提取图片文字 - **Azure 集成**:支持 Microsoft Document Intelligence 进行高精度转换 ## 使用方式 ## 适用场景 - RAG 知识库构建前的文档预处理 - LLM 对话中的文件内容提取 - 文档内容分析和文本挖掘 - 批量文档格式转换 微软出品,MIT 协议开源。 --- **分类**:源码 **标签**:Markdown · 文档 · 格式 **作者**:Xiao.Xi **链接**:https://octohz.com/p/1481