Marker作者新作：Chandra OCR 2参数砍半精度反超，40亿参数在90种语言上击败Gemini 2.5 Flash

据 1M AI News 监测，开源文档工具 Marker 和 Surya 的作者 Vik Paruchuri 发布 Chandra OCR 2，一个 40 亿参数的开源 OCR 模型（前代 Chandra 1 为 90 亿参数），将图像和 PDF 转换为结构化 HTML、Markdown 或 JSON，同时保留完整版面信息。

核心升级：参数量从 90 亿降至 40 亿，吞吐量翻倍（H100 上 96 并发可达每秒 2 页），精度全面提升。olmOCR 基准总分从 83.1% 升至 85.9%（当前最高），其中 ArXiv 文档 90.2%（+8.0）、旧扫描件数学内容 89.3%（+9.0）、表格 89.9%（+1.9）。

多语言是最大亮点：43 种语言平均得分 77.8%，远超 Gemini 2.5 Flash 的 67.6% 和 GPT-5 Mini 的 60.5%；扩展到 90 种语言后平均 72.7%，Gemini 2.5 Flash 为 60.8%。南亚语系提升尤为显著，卡纳达语 +42.6、马拉雅拉姆语 +46.2、泰卢固语 +39.1。

新增能力包括 15 种以上版面块类型（含边界框）、流程图自动转 Mermaid 格式、图表结构化数据提取和化学分子结构识别。代码采用 Apache 2.0 协议，模型采用 OpenRAIL-M 协议（研究和个人使用免费，商用需授权）。

原文链接

纠错/举报