TII开源两款Falcon视觉模型：0.6B分割超SAM 3，语言越复杂优势越大

据 1M AI News 监测，阿联酋 Falcon LLM 系列研发机构技术创新研究所（TII）在 Hugging Face 发布 Falcon Perception 和 Falcon OCR 两款视觉模型。两款模型均采用「早期融合」单一 Transformer 骨干：图像块与文本 token 共享参数空间，图像 token 使用双向注意力，文本 token 使用因果注意力，省去传统「视觉编码器 + 文本解码器」的级联设计。这使模型能真正读懂自然语言里的空间限定和对象关系，而不只是对视觉特征做语义检索。

Falcon Perception 参数量 0.6B，定位开放词汇图像分割与定位。在 SA-Co 基准上取得 Macro-F1 68.0，高于 Meta SAM 3 的 62.3。TII 同步发布诊断基准 PBench，按能力维度分层评测。Falcon Perception 在需要语言理解的任务上领先最为明显：

1. L2（OCR 引导识别，如找「标有 168 字样的酒瓶」）：38.0 vs SAM 3 的 24.6（+13.4）
2. L3（空间关系，如「左边的黑色汽车」「从左数第三扇窗」）：53.5 vs SAM 3 的 31.6（+21.9）
3. L4（交互关系，如「拿着雨伞的人」「使用手机的人」）：49.1 vs SAM 3 的 33.3（+15.8）
4. 密集场景（数百实例共存）：72.6 vs SAM 3 的 58.4（+14.2）

简单对象（L0）差距仅 +0.8，印证了差距随语言复杂度增大的规律。实例存在性校准（是否存在目标）方面，SAM 3 仍占优：MCC 0.82 vs 0.64。

Falcon OCR 参数量 0.3B，复用相同骨干但从零训练，专为文档理解设计。olmOCR 基准得分 80.3（距榜首 1.7 分），多栏版面（87.1%）和表格提取（90.3%）领跑所有测试模型；OmniDocBench 得分 88.64，超过参数量更大或依赖专有基础设施的 DeepSeek OCR v2、GPT 5.2 和 Mistral OCR 3。据 TII 官方表述，Falcon OCR 是开源 OCR 模型中吞吐量最高的，在单张 A100-80GB 上高并发实测达 5,825 token/秒（全流程约 2.9 张图/秒）。

两款模型均已在 Hugging Face 开源，Falcon Perception 提供在线 Playground。