OCR 开源模型深度对比:DeepSeek-OCR 2 vs GLM-OCR

OCR 开源模型深度对比:DeepSeek-OCR 2 vs GLM-OCR

深入解析两大前沿 OCR 模型的技术原理、架构设计与性能表现,为实际应用场景选型提供参考

2025-2026 年,开源 OCR 领域迎来了两颗耀眼的新星:DeepSeek-OCR 2 和 GLM-OCR。这两款模型都基于大语言模型(LLM)架构,代表了 OCR 技术从传统卷积神经网络向多模态大模型的重大转变。本文将深入对比两者的技术原理、架构设计和性能表现。


📊 快速概览

特性 DeepSeek-OCR 2 GLM-OCR
核心架构 Visual Causal Flow GLM-V Encoder-Decoder
视觉编码器 DeepEncoder V2 CogViT
语言解码器 未公开 GLM-0.5B
参数量 未公开 0.9B
关键创新 动态视觉 Token 重排序 Multi-Token Prediction (MTP)
OmniDocBench V1.5 91.09% 94.62% (#1)
视觉 Token 数量 256-1120 未公开
推理速度 未公开 PDF: 1.86 页/秒, 图片: 0.67 张/秒
推理框架 vLLM, Transformers vLLM, SGLang, Ollama
许可证 未公开 MIT + Apache 2.0
开源状态 模型开源 模型 + SDK 开源

🏗️ 架构对比

DeepSeek-OCR 2: Visual Causal Flow

核心理念:让 AI 像人类一样阅读文档——按照逻辑顺序而非像素顺序处理视觉信息。

DeepEncoder V2

传统视觉-语言模型(VLMs)在将视觉 Token 输入 LLM 时,总是按照固定的光栅扫描顺序(从左上到右下)处理,并使用固定的位置编码。DeepSeek-OCR 2 提出了创新的 DeepEncoder V2,能够根据图像语义动态重排视觉 Token。

多分辨率裁剪策略

  • 全局视图:1024×1024 分辨率,256 个因果查询 Token
  • 局部裁剪:768×768 分辨率,0-6 个视图共享 144 个查询 Token
  • 视觉 Token 总数:约束在 256-1,120 之间

这种架构设计使模型在编码阶段能够”组织”图像信息,基于逻辑结构而非一次性全部倾倒给解码器。

因果流 Token

模型使用因果单向注意力(类似 LLM 解码),只有因果 Token 被传递给 LLM 解码器,确保了一个干净、逻辑有序的序列。这匹配了 DeepSeek-OCR 的效率和 Gemini-3 Pro 的视觉 Token 预算,在不增加计算成本的情况下提升性能。

GLM-OCR: GLM-V Encoder-Decoder 架构

核心理念:通过 Multi-Token Prediction 和稳定全任务强化学习提升训练效率、识别准确率和泛化能力。

架构组成

  1. CogViT 视觉编码器:在大规模图像-文本数据上预训练
  2. 轻量级跨模态连接器:高效 Token 下采样
  3. GLM-0.5B 语言解码器:理解上下文,修正模糊识别

Multi-Token Prediction (MTP) Loss

GLM-OCR 引入了创新的 Multi-Token Prediction 损失函数:

  • 每步预测多个 Token
  • 使用上下文实时修正错误
  • 类似语义校对而非逐字符生成

内置的 MTP 层可用于推测解码(speculative decoding),加速生成吞吐量。例如,当扫描模糊时识别出 “c0rn”,模型会利用周围上下文(如 “farm”、”harvest”)预测实际应为 “corn”。

两阶段流水线

GLM-OCR 集成了 PP-DocLayout-V3 布局分析,形成两阶段流水线:

  1. 布局分析:识别文档结构(文本、表格、公式、图像等)
  2. 并行识别:基于布局分析结果并行识别各区域内容

🔬 技术创新对比

视觉 Token 处理

维度 DeepSeek-OCR 2 GLM-OCR
处理方式 动态语义重排 固定顺序 + 高效下采样
Token 数量 256-1120(自适应) 未公开(通过下采样优化)
位置编码 因果位置编码 标准位置编码
优势 逻辑顺序符合人类阅读习惯 计算效率高,推理速度快

训练优化

技术 DeepSeek-OCR 2 GLM-OCR
损失函数 未公开(可能使用标准交叉熵) Multi-Token Prediction (MTP) Loss
强化学习 未公开 稳定全任务强化学习
预训练 未公开 CogViT 大规模图像-文本预训练
优势 架构创新驱动性能 训练效率高,泛化能力强

推理加速

框架 DeepSeek-OCR 2 GLM-OCR
vLLM ✅ 支持 ✅ 支持
Transformers ✅ 支持 ✅ 支持
SGLang ❌ 不支持 ✅ 支持
Ollama ❌ 不支持 ✅ 支持
推测解码 ❌ 未提及 ✅ MTP 层支持

📈 性能对比

OmniDocBench V1.5

GLM-OCR: 94.62(#1 排名)
DeepSeek-OCR 2: 91.09(+3.73% 较上一代)

字符准确率与单词准确率

DeepSeek-OCR 2(较 v1.0 提升):

  • 字符准确率:82.7% → 91.1%(+8.4%)
  • 单词准确率:75.0% → 85.9%(+10.9%)

推理速度

GLM-OCR(单副本、单并发测试):

  • PDF 文档:1.86 页/秒
  • 图片输入:0.67 张/秒

DeepSeek-OCR 2

  • 官方未公开具体速度数据
  • 视觉 Token 数量优化(256-1120)带来计算效率提升

实际场景表现

GLM-OCR

  • 复杂表格:✅ 优秀
  • 代码密集文档:✅ 优秀
  • 印章/签章:✅ 优秀
  • 公式识别:✅ SOTA 性能
  • 信息提取:✅ 支持 JSON Schema

DeepSeek-OCR 2

  • 文档转 Markdown:✅ 优秀(<|grounding|> prompt)
  • 无布局识别:✅ 支持(Free OCR prompt)
  • 动态分辨率:✅ 灵活适配不同文档

🎯 适用场景

DeepSeek-OCR 2 更适合

需要逻辑结构理解的场景

  • 学术论文阅读
  • 复杂文档结构解析
  • 需要按阅读顺序输出的场景

对视觉 Token 预算敏感的场景

  • 边缘设备部署
  • 低计算资源环境
  • 需要控制推理成本

研究用途

  • Visual Causal Flow 架构研究
  • 视觉 Token 动态重排探索

GLM-OCR 更适合

高并发生产环境

  • 企业级文档处理服务
  • 需要稳定吞吐量的场景
  • 批量 PDF/图片处理

多平台部署需求

  • 需要多种推理框架选择(vLLM/SGLang/Ollama)
  • 需要本地化部署
  • 边缘设备集成

工程快速集成

  • 需要 SDK 和完整工具链
  • 需要端到端文档智能系统
  • 信息提取任务(支持 JSON Schema)

🛠️ 部署与使用

安装依赖

DeepSeek-OCR 2

1
2
3
pip install torch==2.6.0 transformers==4.46.3 tokenizers==0.20.3
pip install einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation

GLM-OCR

1
2
3
4
5
# vLLM
pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly

# 或使用 Docker
docker pull vllm/vllm-openai:nightly

推理示例

DeepSeek-OCR 2

1
2
3
4
5
6
7
8
9
10
11
12
13
from transformers import AutoModel, AutoTokenizer
import torch

model_name = 'deepseek-ai/DeepSeek-OCR-2'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)

# 带布局识别
prompt = "<image>\n<|grounding|>Convert document to markdown."
res = model.infer(tokenizer, prompt=prompt, image_file='doc.jpg',
output_path='./output', base_size=1024, image_size=768,
crop_mode=True, save_results=True)

GLM-OCR(使用 SDK):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 推荐使用官方 SDK
# https://github.com/zai-org/GLM-OCR

# 文档解析
from glm_ocr import GLMOCR
ocr = GLMOCR()
result = ocr.parse_document('document.pdf')

# 信息提取
result = ocr.extract_info(
'id_card.jpg',
schema={
"id_number": "",
"name": "",
"date_of_birth": ""
}
)


📝 总结

技术路线差异

  • DeepSeek-OCR 2:专注于视觉处理架构创新,通过 Visual Causal Flow 实现视觉 Token 的动态重排,让 AI 像人类一样按逻辑顺序阅读文档
  • GLM-OCR:专注于训练和推理效率优化,通过 Multi-Token Prediction 和高效 Token 下采样,在保持高性能的同时实现快速推理

性能权衡

  • 精度优先:GLM-OCR 在 OmniDocBench V1.5 上表现更优(94.62 vs 91.09)
  • 效率优先:两者都注重视觉 Token 数量控制,DeepSeek-OCR 2 的动态策略更精细
  • 速度优先:GLM-OCR 官方数据支持更好的推理速度和并发能力

选型建议

需求 推荐模型
最高精度 GLM-OCR
快速集成 GLM-OCR(SDK 完整)
架构研究 DeepSeek-OCR 2
多平台部署 GLM-OCR
低成本推理 两者皆可,需实测

未来展望

两款模型代表了开源 OCR 的两大发展方向:

  1. 架构创新:DeepSeek-OCR 2 的 Visual Causal Flow 可能成为下一代 VLM 的标准设计
  2. 效率优化:GLM-OCR 的 MTP 和高效下采样为实用部署提供了可行路径

随着开源生态的成熟,我们期待看到更多创新,如:

  • 两者的优势结合(因果流 + MTP)
  • 更小的参数量(<1B)保持高性能
  • 更好的跨语言支持
  • 实时 OCR 视频处理能力

📚 参考资源


本文对比基于 2026-02-12 的公开信息和文档。模型性能和特性可能随版本更新而变化。建议在实际部署前进行充分测试。