百度发布40亿参数文档智能模型Qianfan-OCR，多项基准超越Gemini-3-Pro和Qwen3-VL-235B

据 1M AI News 监测，百度千帆团队发布 Qianfan-OCR，一个 40 亿参数的端到端视觉语言模型，将文档解析、版面分析和文档理解统一到单一框架中，直接从图像生成 Markdown。模型由自研 Qianfan-ViT 视觉编码器（支持最高 4K 分辨率）和 Qwen3-4B 语言骨干组成，支持 192 种语言。

核心创新是「Layout-as-Thought」机制：模型在生成最终输出前，先以结构化方式推理版面布局（边界框、元素类型、阅读顺序），再据此生成结果，对复杂排版的文档效果显著。

基准表现：

1. OmniDocBench v1.5 得分 93.12，端到端模型排名第一
2. OlmOCR Bench 得分 79.8，端到端模型排名第一
3. OCRBench 得分 880，同类最高
4. 关键信息提取（KIE）平均得分 87.9，超越 Gemini-3-Pro 和参数量达 235B 的 Qwen3-VL

模型通过百度智能云千帆平台提供 API 访问，使用示例和代码已开源在 GitHub（baidubce/Qianfan-VL）。