本文详细整理了 Google LangExtract 的版本更新日志,这是一个基于 Google Gemini 模型的开源信息提取库,提供强大的文档解析和数据提取能力。
Google LangExtract Release Notes
Google LangExtract 是一个开源的信息提取库,基于 Google 的 Gemini 模型,提供强大的文档解析和数据提取能力。
项目信息
仓库信息
- 项目名称: Google LangExtract
- 类型: 信息提取库
- 语言: Python
- 开源协议: MIT
- GitHub 仓库: https://github.com/google/langextract
- PyPI: https://pypi.org/project/google-langextract/
核心功能
Google LangExtract 基于 Google 的 Gemini 模型,提供以下核心功能:
- 📄 文档解析:支持 PDF、HTML、TXT、Markdown 等多种文档格式
- 🎯 信息提取:支持实体提取、关系提取、表格提取等
- 🤖 模型支持:基于 Google Gemini 模型,支持多模态(文本、图像)
- 🔌 API 设计:简洁易用的 Python API,快速集成
- 📊 结构化输出:将非结构化数据转换为结构化格式(JSON、CSV 等)
- 🚀 批量处理:支持批量文档处理,提高处理效率
版本迭代历史
v1.0.0 - 2026-01-15
新功能
- ✅ 初始版本发布
- ✅ 支持文档格式:PDF、HTML、TXT、Markdown
- ✅ 基础信息提取:实体提取、关键词提取
- ✅ Gemini Pro 集成:支持 Gemini Pro 模型
- ✅ 结构化输出:JSON 格式输出
- ✅ Python 3.8+ 支持:支持 Python 3.8 及以上版本
模型支持
- 🤖 Gemini Pro:支持 Gemini Pro 模型的高级功能
- 📊 Gemini Flash:支持 Gemini Flash 模型(快速响应)
文档格式支持
- 📄 PDF: 完整的 PDF 文档解析支持
- 🌐 HTML: HTML 文档解析和提取
- 📝 TXT: 纯本文档处理
- 📑 Markdown: Markdown 文档格式支持
API 示例
1 | from langextract import LangExtract |
生态支持
- 🔌 API Key 管理:支持 Google Cloud API Key 管理
- 📊 使用统计:记录 API 调用次数和使用量
- 🐛 错误处理:完善的错误处理和重试机制
- 📝 日志记录:详细的日志记录,方便调试和监控
使用示例
1 | from langextract import LangExtract |
v1.0.2 - 2026-01-20
新功能
- ✅ 表格提取增强:改进表格识别和提取能力
- ✅ 多模态支持:增强图像和文本混合内容的处理
- ✅ 批量处理优化:优化批量文档处理的性能
- ✅ 错误处理改进:改进错误消息和异常处理
性能优化
- 🚀 批量处理优化:批量文档处理性能提升 30%
- 💾 内存优化:减少大文档处理的内存占用
- 📊 缓存机制:支持结果缓存,提高重复查询效率
- ⏱️ 超时控制:支持请求超时控制
API 改进
1 | from langextract import LangExtract |
v1.0.3 - 2026-01-25
新功能
- ✅ 自定义提取规则:支持自定义提取规则和模式
- ✅ 关系提取:增强实体间关系的识别和提取
- ✅ 多语言支持:支持多语言文档处理(英语、中文、法语、德语等)
- ✅ 结构化数据输出:支持 CSV、XML 等多种输出格式
自定义提取规则
1 | from langextract import LangExtract |
关系提取
1 | from langextract import LangExtract |
v1.1.0 - 2026-02-01
新功能
- ✅ 插件系统:支持第三方插件和扩展
- ✅ JSON Schema 支持:支持 JSON Schema 验证输出格式
- ✅ CLI 工具:提供命令行工具,方便直接使用
- ✅ API 扩展:支持自定义 API 扩展和适配器
插件系统
1 | from langextract import LangExtract, Plugin |
CLI 工具
1 | # 命令行工具使用 |
JSON Schema 验证
1 | from langextract import LangExtract |
v1.2.0 - 2026-02-10
新功能
- ✅ 多模型支持:支持 Gemini Pro、Gemini Flash、Gemini Ultra 等多种模型
- ✅ 异步 API:支持异步 API 调用,提高处理效率
- ✅ 高级批处理:支持智能批处理和并行处理
- ✅ 监控和日志:增强的监控和日志记录功能
多模型支持
1 | import asyncio |
高级批处理
1 | from langextract import LangExtract |
监控和日志
1 | from langextract import LangExtract, Logger |
项目特性总结
核心优势
- 🤖 基于 Gemini:使用 Google 最新的 Gemini 模型
- 📄 多格式支持:支持 PDF、HTML、TXT、Markdown 等多种文档格式
- 🎯 智能提取:支持实体提取、关系提取、表格提取等
- 🚀 高性能:优化的批处理和异步 API 调用
- 🔌 简单易用:简洁的 Python API 设计,快速集成
- 📊 结构化输出:支持 JSON、CSV、XML 等多种输出格式
- 🔧 高度可定制:支持自定义提取规则、插件系统、CLI 工具
- 📈 完善的监控:详细的日志记录和监控功能
- 🌍 多语言支持:支持英语、中文、法语、德语等多种语言
适用场景
- ✅ 文档解析:PDF、HTML、TXT、Markdown 等文档的解析和信息提取
- 🎯 实体提取:从文本中提取命名实体、组织、日期、地点等
- 🔍 关系提取:识别实体间的关系(如隶属关系、合作关系等)
- 📊 表格提取:从文档中提取结构化表格数据
- 🚀 批量处理:大批量文档的批量解析和提取
- 📝 多语言文档:支持多语言文档的处理和提取
- 🔧 自定义提取:支持自定义提取规则和模式
- 🤖 多模态处理:支持文本和图像混合内容的处理
生态系统
- Google Gemini:基于 Google 的 Gemini 模型
- Google Cloud:与 Google Cloud 平台集成
- 开源社区:活跃的开源社区,丰富的插件和扩展
项目信息:
- 项目名称: Google LangExtract
- GitHub: https://github.com/google/langextract
- 文档: https://github.com/google/langextract/wiki
- PyPI: https://pypi.org/project/google-langextract/
最新版本: v1.2.0
发布日期: 2026-02-10