578 字
3 分钟
IGGT: 融合几何与语义的3D场景理解
IGGT
- Transformer 架构
- 几何语义同出 相互促进 一致性
- 构建了 InsScene-15k
- 数据生成 SAM2

- 数据生成 SAM2
旧有方法
- 解耦 3D 几何重建和高级语义理解为独立任务
- 先利用几何方法预测 3D 结构,再通过 VLMs / 2D seg 模型进行语义分割
- ->对齐
- 1.对齐高级文本概念可能会使表示过度平滑
- 2.依赖基础模型能力(没有集成)
- 3.缺乏 3D 能力 (数据问题)
- 几何头 + 实例头 解码为几何场和实例场
- 滑动窗口移位注意力的跨模态融合模块
- 一致性对比学习

数据集
- 合成数据集 Aria, Infinigen
- 视频捕获 初始帧 prompt 时间传递
- RGBD 扫描 ScanNet++

方法
架构
- 个输入图像
- 预测相机 ,深度 ,点图 ,实例特征
- 1.统一 Transformer,从多幅图像捕获统一 Token 表示
- 2.跨模态融合 互相增强
- 3.3D 一致性监督

统一 Transformer 1B
- 多视图图像编码成一组 Token
- (Token数量) (Token维度)
- 预训练的 DINOv2 提取图像 Token
- 连接一个可学习的相机 Token
- self/cross attention
下游头
几何头
- 相机预测器
- 从相机 Token 中回归相机参数
- 深度预测器 点预测器
- 类似 DPT 架构 从统一 Token 重建特征
实例头
- 滑动窗口 cross attention
- 实例特征 通过 映射为 8 维特征
3D 一致性对比监督
- 多视图监督
- loss
基于实例的场景理解
- 实例空间跟踪 聚类

- 开放词汇语义分割
- 我理解的是对一整个区域分配语义?

- 我理解的是对一整个区域分配语义?
- QA 场景定位
- 大型多模态模型交互 是/否
- LMMs(大型多模态模型)
- 做了一个监督?

实验
评估细节
- ScanNet ScanNet++
- 10 场景 8-10 张图片
- 跟踪 时间 mIOU(衡量分割进度),时间成功率
- 分割 mIOU,mACC
- 实例空间跟踪评估

相关工作
- 空间基础模型
- 3D 场景理解
训练细节
- GPUs 2 天
IGGT: 融合几何与语义的3D场景理解
https://kyc001.github.io/posts/iggt/