筛选：

Unlimited-OCR - 百度开源一次性长文档OCR解析模型

百度出品，基于DeepSeek-OCR改进，支持一次性解析超长文档、多页PDF，单图640切片+多页1024两种模式，SGLang部署兼容OpenAI API

简介

Unlimited OCR 是百度开源的文档 OCR 解析模型，旨在将 DeepSeek-OCR 的能力进一步推进，实现一次性长文档解析（One-shot Long-horizon Parsing）。2026年6月22日发布，MIT 协议。

支持单图解析、多页文档联合解析和 PDF 全文解析，提供 Transformers 直接推理和 SGLang 服务端部署两种使用方式。

核心特性

单图双模式：gundam（base_size=1024, image_size=640, crop_mode=True）适合一般文档；base（image_size=1024, crop_mode=False）适合高精度场景
多页/PDF 解析：多页文档统一使用 base 模式，自动处理页面间上下文
长文本输出：max_length 支持到 32768 tokens
SGLang 部署：兼容 OpenAI API 格式，支持流式输出，适合生产环境批量推理
批量推理：infer.py 一键启动服务端 + 并发请求处理整个图片目录或 PDF

技术栈

推理框架：Transformers 4.57.1 / SGLang
GPU 要求：NVIDIA CUDA（测试环境 CUDA 12.9）
Python：3.12.3
精度：bfloat16
注意力后端：fa3（Flash Attention 3）

快速开始

from transformers import AutoModel, AutoTokenizer

model_name = 'baidu/Unlimited-OCR'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True, use_safetensors=True, torch_dtype=torch.bfloat16)
model = model.eval().cuda()

model.infer(tokenizer, prompt='<image>document parsing.', image_file='your_image.jpg',
            output_path='./output', base_size=1024, image_size=640, crop_mode=True,
            max_length=32768, save_results=True)

链接

GitHub：https://github.com/baidu/Unlimited-OCR
HuggingFace：https://huggingface.co/baidu/Unlimited-OCR
论文：Unlimited-OCR.pdf
ModelScope：https://modelscope.cn/models/PaddlePaddle/Unlimited-OCR

2900举报0

Xiao.Xi•6天前

点击获取 ^_^

被收录：

解析 OCR Unlimited

暂无评论