2026-02-12

OCR 开源模型深度对比：DeepSeek-OCR 2 vs GLM-OCR

深入解析两大前沿 OCR 模型的技术原理、架构设计与性能表现，为实际应用场景选型提供参考

2025-2026 年，开源 OCR 领域迎来了两颗耀眼的新星：DeepSeek-OCR 2 和 GLM-OCR。这两款模型都基于大语言模型（LLM）架构，代表了 OCR 技术从传统卷积神经网络向多模态大模型的重大转变。本文将深入对比两者的技术原理、架构设计和性能表现。

📊 快速概览

特性	DeepSeek-OCR 2	GLM-OCR
核心架构	Visual Causal Flow	GLM-V Encoder-Decoder
视觉编码器	DeepEncoder V2	CogViT
语言解码器	未公开	GLM-0.5B
参数量	未公开	0.9B
关键创新	动态视觉 Token 重排序	Multi-Token Prediction (MTP)
OmniDocBench V1.5	91.09%	94.62% (#1)
视觉 Token 数量	256-1120	未公开
推理速度	未公开	PDF: 1.86 页/秒, 图片: 0.67 张/秒
推理框架	vLLM, Transformers	vLLM, SGLang, Ollama
许可证	未公开	MIT + Apache 2.0
开源状态	模型开源	模型 + SDK 开源

🏗️ 架构对比

DeepSeek-OCR 2: Visual Causal Flow

核心理念：让 AI 像人类一样阅读文档——按照逻辑顺序而非像素顺序处理视觉信息。

DeepEncoder V2

传统视觉-语言模型（VLMs）在将视觉 Token 输入 LLM 时，总是按照固定的光栅扫描顺序（从左上到右下）处理，并使用固定的位置编码。DeepSeek-OCR 2 提出了创新的 DeepEncoder V2，能够根据图像语义动态重排视觉 Token。

多分辨率裁剪策略

全局视图：1024×1024 分辨率，256 个因果查询 Token
局部裁剪：768×768 分辨率，0-6 个视图共享 144 个查询 Token
视觉 Token 总数：约束在 256-1,120 之间

这种架构设计使模型在编码阶段能够”组织”图像信息，基于逻辑结构而非一次性全部倾倒给解码器。

因果流 Token

模型使用因果单向注意力（类似 LLM 解码），只有因果 Token 被传递给 LLM 解码器，确保了一个干净、逻辑有序的序列。这匹配了 DeepSeek-OCR 的效率和 Gemini-3 Pro 的视觉 Token 预算，在不增加计算成本的情况下提升性能。

GLM-OCR: GLM-V Encoder-Decoder 架构

核心理念：通过 Multi-Token Prediction 和稳定全任务强化学习提升训练效率、识别准确率和泛化能力。

架构组成

CogViT 视觉编码器：在大规模图像-文本数据上预训练
轻量级跨模态连接器：高效 Token 下采样
GLM-0.5B 语言解码器：理解上下文，修正模糊识别

Multi-Token Prediction (MTP) Loss

GLM-OCR 引入了创新的 Multi-Token Prediction 损失函数：

每步预测多个 Token
使用上下文实时修正错误
类似语义校对而非逐字符生成

内置的 MTP 层可用于推测解码（speculative decoding），加速生成吞吐量。例如，当扫描模糊时识别出 “c0rn”，模型会利用周围上下文（如 “farm”、”harvest”）预测实际应为 “corn”。

两阶段流水线

GLM-OCR 集成了 PP-DocLayout-V3 布局分析，形成两阶段流水线：

布局分析：识别文档结构（文本、表格、公式、图像等）
并行识别：基于布局分析结果并行识别各区域内容

🔬 技术创新对比

视觉 Token 处理

维度	DeepSeek-OCR 2	GLM-OCR
处理方式	动态语义重排	固定顺序 + 高效下采样
Token 数量	256-1120（自适应）	未公开（通过下采样优化）
位置编码	因果位置编码	标准位置编码
优势	逻辑顺序符合人类阅读习惯	计算效率高，推理速度快

训练优化

技术	DeepSeek-OCR 2	GLM-OCR
损失函数	未公开（可能使用标准交叉熵）	Multi-Token Prediction (MTP) Loss
强化学习	未公开	稳定全任务强化学习
预训练	未公开	CogViT 大规模图像-文本预训练
优势	架构创新驱动性能	训练效率高，泛化能力强

推理加速

框架	DeepSeek-OCR 2	GLM-OCR
vLLM	✅ 支持	✅ 支持
Transformers	✅ 支持	✅ 支持
SGLang	❌ 不支持	✅ 支持
Ollama	❌ 不支持	✅ 支持
推测解码	❌ 未提及	✅ MTP 层支持

📈 性能对比

OmniDocBench V1.5

GLM-OCR: 94.62（#1 排名）
DeepSeek-OCR 2: 91.09（+3.73% 较上一代）

字符准确率与单词准确率

DeepSeek-OCR 2（较 v1.0 提升）：

字符准确率：82.7% → 91.1%（+8.4%）
单词准确率：75.0% → 85.9%（+10.9%）

推理速度

GLM-OCR（单副本、单并发测试）：

PDF 文档：1.86 页/秒
图片输入：0.67 张/秒

DeepSeek-OCR 2：

官方未公开具体速度数据
视觉 Token 数量优化（256-1120）带来计算效率提升

实际场景表现

GLM-OCR：

复杂表格：✅ 优秀
代码密集文档：✅ 优秀
印章/签章：✅ 优秀
公式识别：✅ SOTA 性能
信息提取：✅ 支持 JSON Schema

DeepSeek-OCR 2：

文档转 Markdown：✅ 优秀（<|grounding|> prompt）
无布局识别：✅ 支持（Free OCR prompt）
动态分辨率：✅ 灵活适配不同文档

🎯 适用场景

DeepSeek-OCR 2 更适合

✅ 需要逻辑结构理解的场景

学术论文阅读
复杂文档结构解析
需要按阅读顺序输出的场景

✅ 对视觉 Token 预算敏感的场景

边缘设备部署
低计算资源环境
需要控制推理成本

✅ 研究用途

Visual Causal Flow 架构研究
视觉 Token 动态重排探索

GLM-OCR 更适合

✅ 高并发生产环境

企业级文档处理服务
需要稳定吞吐量的场景
批量 PDF/图片处理

✅ 多平台部署需求

需要多种推理框架选择（vLLM/SGLang/Ollama）
需要本地化部署
边缘设备集成

✅ 工程快速集成

需要 SDK 和完整工具链
需要端到端文档智能系统
信息提取任务（支持 JSON Schema）

🛠️ 部署与使用

安装依赖

DeepSeek-OCR 2：

1
2
3

pip install torch==2.6.0 transformers==4.46.3 tokenizers==0.20.3
pip install einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation

GLM-OCR：

# vLLM
pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly

# 或使用 Docker
docker pull vllm/vllm-openai:nightly

推理示例

DeepSeek-OCR 2：

from transformers import AutoModel, AutoTokenizer
import torch

model_name = 'deepseek-ai/DeepSeek-OCR-2'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)

# 带布局识别
prompt = "<image>\n<|grounding|>Convert document to markdown."
res = model.infer(tokenizer, prompt=prompt, image_file='doc.jpg', 
                 output_path='./output', base_size=1024, image_size=768, 
                 crop_mode=True, save_results=True)

GLM-OCR（使用 SDK）：

# 推荐使用官方 SDK
# https://github.com/zai-org/GLM-OCR

# 文档解析
from glm_ocr import GLMOCR
ocr = GLMOCR()
result = ocr.parse_document('document.pdf')

# 信息提取
result = ocr.extract_info(
    'id_card.jpg',
    schema={
        "id_number": "",
        "name": "",
        "date_of_birth": ""
    }
)

📝 总结

技术路线差异

DeepSeek-OCR 2：专注于视觉处理架构创新，通过 Visual Causal Flow 实现视觉 Token 的动态重排，让 AI 像人类一样按逻辑顺序阅读文档
GLM-OCR：专注于训练和推理效率优化，通过 Multi-Token Prediction 和高效 Token 下采样，在保持高性能的同时实现快速推理

性能权衡

精度优先：GLM-OCR 在 OmniDocBench V1.5 上表现更优（94.62 vs 91.09）
效率优先：两者都注重视觉 Token 数量控制，DeepSeek-OCR 2 的动态策略更精细
速度优先：GLM-OCR 官方数据支持更好的推理速度和并发能力

选型建议

需求	推荐模型
最高精度	GLM-OCR
快速集成	GLM-OCR（SDK 完整）
架构研究	DeepSeek-OCR 2
多平台部署	GLM-OCR
低成本推理	两者皆可，需实测

未来展望

两款模型代表了开源 OCR 的两大发展方向：

架构创新：DeepSeek-OCR 2 的 Visual Causal Flow 可能成为下一代 VLM 的标准设计
效率优化：GLM-OCR 的 MTP 和高效下采样为实用部署提供了可行路径

随着开源生态的成熟，我们期待看到更多创新，如：

两者的优势结合（因果流 + MTP）
更小的参数量（<1B）保持高性能
更好的跨语言支持
实时 OCR 视频处理能力

📚 参考资源

DeepSeek-OCR 2: GitHub | Hugging Face | 论文
GLM-OCR: GitHub | Hugging Face | 文档
OmniDocBench: GitHub

本文对比基于 2026-02-12 的公开信息和文档。模型性能和特性可能随版本更新而变化。建议在实际部署前进行充分测试。