header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
扫码下载APP

AI2开源WildDet3D,单张照片即可预测物体三维位置、大小和朝向

1M AI News 监测,AI 研究机构 AI2(Allen Institute for AI)开源 WildDet3D,一个从单张 RGB 照片预测物体三维边界框的开放词汇模型。输入一张普通照片,模型能估算画面中物体在真实空间里的位置、尺寸和朝向,支持三种交互方式:输入文字类别名(如「消防栓」)找出场景中所有实例,点击画面中的物体获取其 3D 框,或传入其他模型给出的 2D 检测框将其提升为 3D。手机裁剪照、广角运动相机帧、机器人摄像头画面均可直接处理,无需针对特定相机微调。当设备提供稀疏深度信号(LiDAR、ToF、RGB-D 相机)时,模型可直接融合这些信号提升精度。

架构由三部分并行协作:基于 SAM3 视觉主干的 2D 检测器接收三种提示输入并在图像中定位物体;冻结的 DINOv2 编码器加可训练深度解码器估计逐像素深度并生成几何特征;3D 检测头通过交叉注意力将 2D 检测结果与深度特征融合,输出完整的三维边界框。几何后端采用模块化设计,可替换不同深度模型而无需重构整体架构。

在标准基准 Omni3D(涵盖 6 个室内外数据集、50 个类别)上,WildDet3D 文字提示模式达 34.2 AP,较此前最佳 3D-MOOD 提升 5.8 个百分点,仅需 12 轮训练(此前方法需 80-120 轮)。零样本迁移表现更突出:在自动驾驶数据集 Argoverse 2 上达 40.3 ODS,接近前最佳(23.8)的两倍;在室内场景数据集 ScanNet 上达 48.9 ODS,提升 17.4 个百分点。在训练时从未见过的新类别上差距更大,Argoverse 2 上 38.6 vs 14.8,ScanNet 上 45.8 vs 15.7。

同步开源 WildDet3D-Data 数据集:超过 100 万张图片、370 万条经验证的 3D 标注、覆盖 1.3 万个物体类别,其中超过 10 万张由人工筛选。另发布一款 iOS 应用,利用设备 LiDAR 深度实时渲染 AR 3D 边界框。模型权重、数据集、代码、评估工具和交互 Demo 全部公开。

举报 纠错/举报
纠错/举报
提交
新增文库
仅自己可见
公开
保存
选择文库
新增文库
取消
完成