header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

TII开源两款Falcon视觉模型:0.6B分割超SAM 3,语言越复杂优势越大

1M AI News 监测,阿联酋 Falcon LLM 系列研发机构技术创新研究所(TII)在 Hugging Face 发布 Falcon Perception 和 Falcon OCR 两款视觉模型。两款模型均采用「早期融合」单一 Transformer 骨干:图像块与文本 token 共享参数空间,图像 token 使用双向注意力,文本 token 使用因果注意力,省去传统「视觉编码器 + 文本解码器」的级联设计。这使模型能真正读懂自然语言里的空间限定和对象关系,而不只是对视觉特征做语义检索。

Falcon Perception 参数量 0.6B,定位开放词汇图像分割与定位。在 SA-Co 基准上取得 Macro-F1 68.0,高于 Meta SAM 3 的 62.3。TII 同步发布诊断基准 PBench,按能力维度分层评测。Falcon Perception 在需要语言理解的任务上领先最为明显:

1. L2(OCR 引导识别,如找「标有 168 字样的酒瓶」):38.0 vs SAM 3 的 24.6(+13.4)
2. L3(空间关系,如「左边的黑色汽车」「从左数第三扇窗」):53.5 vs SAM 3 的 31.6(+21.9)
3. L4(交互关系,如「拿着雨伞的人」「使用手机的人」):49.1 vs SAM 3 的 33.3(+15.8)
4. 密集场景(数百实例共存):72.6 vs SAM 3 的 58.4(+14.2)

简单对象(L0)差距仅 +0.8,印证了差距随语言复杂度增大的规律。实例存在性校准(是否存在目标)方面,SAM 3 仍占优:MCC 0.82 vs 0.64。

Falcon OCR 参数量 0.3B,复用相同骨干但从零训练,专为文档理解设计。olmOCR 基准得分 80.3(距榜首 1.7 分),多栏版面(87.1%)和表格提取(90.3%)领跑所有测试模型;OmniDocBench 得分 88.64,超过参数量更大或依赖专有基础设施的 DeepSeek OCR v2、GPT 5.2 和 Mistral OCR 3。据 TII 官方表述,Falcon OCR 是开源 OCR 模型中吞吐量最高的,在单张 A100-80GB 上高并发实测达 5,825 token/秒(全流程约 2.9 张图/秒)。

两款模型均已在 Hugging Face 开源,Falcon Perception 提供在线 Playground。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成