# Unlimited-OCR - 百度开源一次性长文档OCR解析模型 > 百度出品,基于DeepSeek-OCR改进,支持一次性解析超长文档、多页PDF,单图640切片+多页1024两种模式,SGLang部署兼容OpenAI API ## 简介 Unlimited OCR 是百度开源的文档 OCR 解析模型,旨在将 DeepSeek-OCR 的能力进一步推进,实现**一次性长文档解析**(One-shot Long-horizon Parsing)。2026年6月22日发布,MIT 协议。 支持单图解析、多页文档联合解析和 PDF 全文解析,提供 Transformers 直接推理和 SGLang 服务端部署两种使用方式。 ## 核心特性 - **单图双模式**:`gundam`(base_size=1024, image_size=640, crop_mode=True)适合一般文档;`base`(image_size=1024, crop_mode=False)适合高精度场景 - **多页/PDF 解析**:多页文档统一使用 base 模式,自动处理页面间上下文 - **长文本输出**:max_length 支持到 32768 tokens - **SGLang 部署**:兼容 OpenAI API 格式,支持流式输出,适合生产环境批量推理 - **批量推理**:`infer.py` 一键启动服务端 + 并发请求处理整个图片目录或 PDF ## 技术栈 - **推理框架**:Transformers 4.57.1 / SGLang - **GPU 要求**:NVIDIA CUDA(测试环境 CUDA 12.9) - **Python**:3.12.3 - **精度**:bfloat16 - **注意力后端**:fa3(Flash Attention 3) ## 快速开始 ```python from transformers import AutoModel, AutoTokenizer model_name = 'baidu/Unlimited-OCR' tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModel.from_pretrained(model_name, trust_remote_code=True, use_safetensors=True, torch_dtype=torch.bfloat16) model = model.eval().cuda() model.infer(tokenizer, prompt='document parsing.', image_file='your_image.jpg', output_path='./output', base_size=1024, image_size=640, crop_mode=True, max_length=32768, save_results=True) ``` ## 链接 - GitHub:https://github.com/baidu/Unlimited-OCR - HuggingFace:https://huggingface.co/baidu/Unlimited-OCR - 论文:[Unlimited-OCR.pdf](https://github.com/baidu/Unlimited-OCR/blob/main/Unlimited-OCR.pdf) - ModelScope:https://modelscope.cn/models/PaddlePaddle/Unlimited-OCR --- **分类**:源码 **标签**:解析 · OCR · Unlimited **作者**:Xiao.Xi **链接**:https://octohz.com/p/1835