据 1M AI News 监测,百度千帆团队发布 Qianfan-OCR,一个 40 亿参数的端到端视觉语言模型,将文档解析、版面分析和文档理解统一到单一框架中,直接从图像生成 Markdown。模型由自研 Qianfan-ViT 视觉编码器(支持最高 4K 分辨率)和 Qwen3-4B 语言骨干组成,支持 192 种语言。
核心创新是「Layout-as-Thought」机制:模型在生成最终输出前,先以结构化方式推理版面布局(边界框、元素类型、阅读顺序),再据此生成结果,对复杂排版的文档效果显著。
基准表现:
1. OmniDocBench v1.5 得分 93.12,端到端模型排名第一
2. OlmOCR Bench 得分 79.8,端到端模型排名第一
3. OCRBench 得分 880,同类最高
4. 关键信息提取(KIE)平均得分 87.9,超越 Gemini-3-Pro 和参数量达 235B 的 Qwen3-VL
模型通过百度智能云千帆平台提供 API 访问,使用示例和代码已开源在 GitHub(baidubce/Qianfan-VL)。