# Unlimited-OCR - 百度开源一次性长文档OCR解析模型

> 百度出品，基于DeepSeek-OCR改进，支持一次性解析超长文档、多页PDF，单图640切片+多页1024两种模式，SGLang部署兼容OpenAI API

## 简介

Unlimited OCR 是百度开源的文档 OCR 解析模型，旨在将 DeepSeek-OCR 的能力进一步推进，实现**一次性长文档解析**（One-shot Long-horizon Parsing）。2026年6月22日发布，MIT 协议。

支持单图解析、多页文档联合解析和 PDF 全文解析，提供 Transformers 直接推理和 SGLang 服务端部署两种使用方式。

## 核心特性

- **单图双模式**：`gundam`（base_size=1024, image_size=640, crop_mode=True）适合一般文档；`base`（image_size=1024, crop_mode=False）适合高精度场景
- **多页/PDF 解析**：多页文档统一使用 base 模式，自动处理页面间上下文
- **长文本输出**：max_length 支持到 32768 tokens
- **SGLang 部署**：兼容 OpenAI API 格式，支持流式输出，适合生产环境批量推理
- **批量推理**：`infer.py` 一键启动服务端 + 并发请求处理整个图片目录或 PDF

## 技术栈

- **推理框架**：Transformers 4.57.1 / SGLang
- **GPU 要求**：NVIDIA CUDA（测试环境 CUDA 12.9）
- **Python**：3.12.3
- **精度**：bfloat16
- **注意力后端**：fa3（Flash Attention 3）

## 快速开始

```python
from transformers import AutoModel, AutoTokenizer

model_name = 'baidu/Unlimited-OCR'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True, use_safetensors=True, torch_dtype=torch.bfloat16)
model = model.eval().cuda()

model.infer(tokenizer, prompt='<image>document parsing.', image_file='your_image.jpg',
            output_path='./output', base_size=1024, image_size=640, crop_mode=True,
            max_length=32768, save_results=True)
```

## 链接

- GitHub：https://github.com/baidu/Unlimited-OCR
- HuggingFace：https://huggingface.co/baidu/Unlimited-OCR
- 论文：[Unlimited-OCR.pdf](https://github.com/baidu/Unlimited-OCR/blob/main/Unlimited-OCR.pdf)
- ModelScope：https://modelscope.cn/models/PaddlePaddle/Unlimited-OCR

---

**分类**：源码
**标签**：解析 · OCR · Unlimited
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1835