AI2开源WildDet3D，单张照片即可预测物体三维位置、大小和朝向

据 1M AI News 监测，AI 研究机构 AI2（Allen Institute for AI）开源 WildDet3D，一个从单张 RGB 照片预测物体三维边界框的开放词汇模型。输入一张普通照片，模型能估算画面中物体在真实空间里的位置、尺寸和朝向，支持三种交互方式：输入文字类别名（如「消防栓」）找出场景中所有实例，点击画面中的物体获取其 3D 框，或传入其他模型给出的 2D 检测框将其提升为 3D。手机裁剪照、广角运动相机帧、机器人摄像头画面均可直接处理，无需针对特定相机微调。当设备提供稀疏深度信号（LiDAR、ToF、RGB-D 相机）时，模型可直接融合这些信号提升精度。

架构由三部分并行协作：基于 SAM3 视觉主干的 2D 检测器接收三种提示输入并在图像中定位物体；冻结的 DINOv2 编码器加可训练深度解码器估计逐像素深度并生成几何特征；3D 检测头通过交叉注意力将 2D 检测结果与深度特征融合，输出完整的三维边界框。几何后端采用模块化设计，可替换不同深度模型而无需重构整体架构。

在标准基准 Omni3D（涵盖 6 个室内外数据集、50 个类别）上，WildDet3D 文字提示模式达 34.2 AP，较此前最佳 3D-MOOD 提升 5.8 个百分点，仅需 12 轮训练（此前方法需 80-120 轮）。零样本迁移表现更突出：在自动驾驶数据集 Argoverse 2 上达 40.3 ODS，接近前最佳（23.8）的两倍；在室内场景数据集 ScanNet 上达 48.9 ODS，提升 17.4 个百分点。在训练时从未见过的新类别上差距更大，Argoverse 2 上 38.6 vs 14.8，ScanNet 上 45.8 vs 15.7。

同步开源 WildDet3D-Data 数据集：超过 100 万张图片、370 万条经验证的 3D 标注、覆盖 1.3 万个物体类别，其中超过 10 万张由人工筛选。另发布一款 iOS 应用，利用设备 LiDAR 深度实时渲染 AR 3D 边界框。模型权重、数据集、代码、评估工具和交互 Demo 全部公开。

原文链接

纠错/举报