据 1M AI News 监测,开源文档工具 Marker 和 Surya 的作者 Vik Paruchuri 发布 Chandra OCR 2,一个 40 亿参数的开源 OCR 模型(前代 Chandra 1 为 90 亿参数),将图像和 PDF 转换为结构化 HTML、Markdown 或 JSON,同时保留完整版面信息。
核心升级:参数量从 90 亿降至 40 亿,吞吐量翻倍(H100 上 96 并发可达每秒 2 页),精度全面提升。olmOCR 基准总分从 83.1% 升至 85.9%(当前最高),其中 ArXiv 文档 90.2%(+8.0)、旧扫描件数学内容 89.3%(+9.0)、表格 89.9%(+1.9)。
多语言是最大亮点:43 种语言平均得分 77.8%,远超 Gemini 2.5 Flash 的 67.6% 和 GPT-5 Mini 的 60.5%;扩展到 90 种语言后平均 72.7%,Gemini 2.5 Flash 为 60.8%。南亚语系提升尤为显著,卡纳达语 +42.6、马拉雅拉姆语 +46.2、泰卢固语 +39.1。
新增能力包括 15 种以上版面块类型(含边界框)、流程图自动转 Mermaid 格式、图表结构化数据提取和化学分子结构识别。代码采用 Apache 2.0 协议,模型采用 OpenRAIL-M 协议(研究和个人使用免费,商用需授权)。