OCR 开源模型深度对比:DeepSeek-OCR 2 vs GLM-OCR
深入解析两大前沿 OCR 模型的技术原理、架构设计与性能表现,为实际应用场景选型提供参考
2025-2026 年,开源 OCR 领域迎来了两颗耀眼的新星:DeepSeek-OCR 2 和 GLM-OCR。这两款模型都基于大语言模型(LLM)架构,代表了 OCR 技术从传统卷积神经网络向多模态大模型的重大转变。本文将深入对比两者的技术原理、架构设计和性能表现。
📊 快速概览
| 特性 | DeepSeek-OCR 2 | GLM-OCR |
|---|---|---|
| 核心架构 | Visual Causal Flow | GLM-V Encoder-Decoder |
| 视觉编码器 | DeepEncoder V2 | CogViT |
| 语言解码器 | 未公开 | GLM-0.5B |
| 参数量 | 未公开 | 0.9B |
| 关键创新 | 动态视觉 Token 重排序 | Multi-Token Prediction (MTP) |
| OmniDocBench V1.5 | 91.09% | 94.62% (#1) |
| 视觉 Token 数量 | 256-1120 | 未公开 |
| 推理速度 | 未公开 | PDF: 1.86 页/秒, 图片: 0.67 张/秒 |
| 推理框架 | vLLM, Transformers | vLLM, SGLang, Ollama |
| 许可证 | 未公开 | MIT + Apache 2.0 |
| 开源状态 | 模型开源 | 模型 + SDK 开源 |
🏗️ 架构对比
DeepSeek-OCR 2: Visual Causal Flow
核心理念:让 AI 像人类一样阅读文档——按照逻辑顺序而非像素顺序处理视觉信息。
DeepEncoder V2
传统视觉-语言模型(VLMs)在将视觉 Token 输入 LLM 时,总是按照固定的光栅扫描顺序(从左上到右下)处理,并使用固定的位置编码。DeepSeek-OCR 2 提出了创新的 DeepEncoder V2,能够根据图像语义动态重排视觉 Token。
多分辨率裁剪策略
- 全局视图:1024×1024 分辨率,256 个因果查询 Token
- 局部裁剪:768×768 分辨率,0-6 个视图共享 144 个查询 Token
- 视觉 Token 总数:约束在 256-1,120 之间
这种架构设计使模型在编码阶段能够”组织”图像信息,基于逻辑结构而非一次性全部倾倒给解码器。
因果流 Token
模型使用因果单向注意力(类似 LLM 解码),只有因果 Token 被传递给 LLM 解码器,确保了一个干净、逻辑有序的序列。这匹配了 DeepSeek-OCR 的效率和 Gemini-3 Pro 的视觉 Token 预算,在不增加计算成本的情况下提升性能。
GLM-OCR: GLM-V Encoder-Decoder 架构
核心理念:通过 Multi-Token Prediction 和稳定全任务强化学习提升训练效率、识别准确率和泛化能力。
架构组成
- CogViT 视觉编码器:在大规模图像-文本数据上预训练
- 轻量级跨模态连接器:高效 Token 下采样
- GLM-0.5B 语言解码器:理解上下文,修正模糊识别
Multi-Token Prediction (MTP) Loss
GLM-OCR 引入了创新的 Multi-Token Prediction 损失函数:
- 每步预测多个 Token
- 使用上下文实时修正错误
- 类似语义校对而非逐字符生成
内置的 MTP 层可用于推测解码(speculative decoding),加速生成吞吐量。例如,当扫描模糊时识别出 “c0rn”,模型会利用周围上下文(如 “farm”、”harvest”)预测实际应为 “corn”。
两阶段流水线
GLM-OCR 集成了 PP-DocLayout-V3 布局分析,形成两阶段流水线:
- 布局分析:识别文档结构(文本、表格、公式、图像等)
- 并行识别:基于布局分析结果并行识别各区域内容
🔬 技术创新对比
视觉 Token 处理
| 维度 | DeepSeek-OCR 2 | GLM-OCR |
|---|---|---|
| 处理方式 | 动态语义重排 | 固定顺序 + 高效下采样 |
| Token 数量 | 256-1120(自适应) | 未公开(通过下采样优化) |
| 位置编码 | 因果位置编码 | 标准位置编码 |
| 优势 | 逻辑顺序符合人类阅读习惯 | 计算效率高,推理速度快 |
训练优化
| 技术 | DeepSeek-OCR 2 | GLM-OCR |
|---|---|---|
| 损失函数 | 未公开(可能使用标准交叉熵) | Multi-Token Prediction (MTP) Loss |
| 强化学习 | 未公开 | 稳定全任务强化学习 |
| 预训练 | 未公开 | CogViT 大规模图像-文本预训练 |
| 优势 | 架构创新驱动性能 | 训练效率高,泛化能力强 |
推理加速
| 框架 | DeepSeek-OCR 2 | GLM-OCR |
|---|---|---|
| vLLM | ✅ 支持 | ✅ 支持 |
| Transformers | ✅ 支持 | ✅ 支持 |
| SGLang | ❌ 不支持 | ✅ 支持 |
| Ollama | ❌ 不支持 | ✅ 支持 |
| 推测解码 | ❌ 未提及 | ✅ MTP 层支持 |
📈 性能对比
OmniDocBench V1.5
GLM-OCR: 94.62(#1 排名)
DeepSeek-OCR 2: 91.09(+3.73% 较上一代)
字符准确率与单词准确率
DeepSeek-OCR 2(较 v1.0 提升):
- 字符准确率:82.7% → 91.1%(+8.4%)
- 单词准确率:75.0% → 85.9%(+10.9%)
推理速度
GLM-OCR(单副本、单并发测试):
- PDF 文档:1.86 页/秒
- 图片输入:0.67 张/秒
DeepSeek-OCR 2:
- 官方未公开具体速度数据
- 视觉 Token 数量优化(256-1120)带来计算效率提升
实际场景表现
GLM-OCR:
- 复杂表格:✅ 优秀
- 代码密集文档:✅ 优秀
- 印章/签章:✅ 优秀
- 公式识别:✅ SOTA 性能
- 信息提取:✅ 支持 JSON Schema
DeepSeek-OCR 2:
- 文档转 Markdown:✅ 优秀(
<|grounding|>prompt) - 无布局识别:✅ 支持(
Free OCRprompt) - 动态分辨率:✅ 灵活适配不同文档
🎯 适用场景
DeepSeek-OCR 2 更适合
✅ 需要逻辑结构理解的场景
- 学术论文阅读
- 复杂文档结构解析
- 需要按阅读顺序输出的场景
✅ 对视觉 Token 预算敏感的场景
- 边缘设备部署
- 低计算资源环境
- 需要控制推理成本
✅ 研究用途
- Visual Causal Flow 架构研究
- 视觉 Token 动态重排探索
GLM-OCR 更适合
✅ 高并发生产环境
- 企业级文档处理服务
- 需要稳定吞吐量的场景
- 批量 PDF/图片处理
✅ 多平台部署需求
- 需要多种推理框架选择(vLLM/SGLang/Ollama)
- 需要本地化部署
- 边缘设备集成
✅ 工程快速集成
- 需要 SDK 和完整工具链
- 需要端到端文档智能系统
- 信息提取任务(支持 JSON Schema)
🛠️ 部署与使用
安装依赖
DeepSeek-OCR 2:1
2
3pip install torch==2.6.0 transformers==4.46.3 tokenizers==0.20.3
pip install einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation
GLM-OCR:1
2
3
4
5# vLLM
pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly
# 或使用 Docker
docker pull vllm/vllm-openai:nightly
推理示例
DeepSeek-OCR 2:1
2
3
4
5
6
7
8
9
10
11
12
13from transformers import AutoModel, AutoTokenizer
import torch
model_name = 'deepseek-ai/DeepSeek-OCR-2'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)
# 带布局识别
prompt = "<image>\n<|grounding|>Convert document to markdown."
res = model.infer(tokenizer, prompt=prompt, image_file='doc.jpg',
output_path='./output', base_size=1024, image_size=768,
crop_mode=True, save_results=True)
GLM-OCR(使用 SDK):1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17# 推荐使用官方 SDK
# https://github.com/zai-org/GLM-OCR
# 文档解析
from glm_ocr import GLMOCR
ocr = GLMOCR()
result = ocr.parse_document('document.pdf')
# 信息提取
result = ocr.extract_info(
'id_card.jpg',
schema={
"id_number": "",
"name": "",
"date_of_birth": ""
}
)
📝 总结
技术路线差异
- DeepSeek-OCR 2:专注于视觉处理架构创新,通过 Visual Causal Flow 实现视觉 Token 的动态重排,让 AI 像人类一样按逻辑顺序阅读文档
- GLM-OCR:专注于训练和推理效率优化,通过 Multi-Token Prediction 和高效 Token 下采样,在保持高性能的同时实现快速推理
性能权衡
- 精度优先:GLM-OCR 在 OmniDocBench V1.5 上表现更优(94.62 vs 91.09)
- 效率优先:两者都注重视觉 Token 数量控制,DeepSeek-OCR 2 的动态策略更精细
- 速度优先:GLM-OCR 官方数据支持更好的推理速度和并发能力
选型建议
| 需求 | 推荐模型 |
|---|---|
| 最高精度 | GLM-OCR |
| 快速集成 | GLM-OCR(SDK 完整) |
| 架构研究 | DeepSeek-OCR 2 |
| 多平台部署 | GLM-OCR |
| 低成本推理 | 两者皆可,需实测 |
未来展望
两款模型代表了开源 OCR 的两大发展方向:
- 架构创新:DeepSeek-OCR 2 的 Visual Causal Flow 可能成为下一代 VLM 的标准设计
- 效率优化:GLM-OCR 的 MTP 和高效下采样为实用部署提供了可行路径
随着开源生态的成熟,我们期待看到更多创新,如:
- 两者的优势结合(因果流 + MTP)
- 更小的参数量(<1B)保持高性能
- 更好的跨语言支持
- 实时 OCR 视频处理能力
📚 参考资源
- DeepSeek-OCR 2: GitHub | Hugging Face | 论文
- GLM-OCR: GitHub | Hugging Face | 文档
- OmniDocBench: GitHub
本文对比基于 2026-02-12 的公开信息和文档。模型性能和特性可能随版本更新而变化。建议在实际部署前进行充分测试。