1279 字

6 分钟

LERF： Language Embedded Radiance Fields for Open-Vocabulary 3D Scene Understanding

2025-11-14

计算机视觉

计算机视觉

/

3D重建

/

场景理解

LERF#

语言嵌入辐射场#

将CLIP等现成模型的语言嵌入与NeRF结合
开放式语言查询
沿训练涉嫌进行卷渲染CLIP嵌入来学习NeRF内部的密集多尺度语言场
并在训练视图间监督这些嵌入，以提供多视图一致性并平滑底层语言场
可以实时交互地提取广泛语言提示的三维相关性图

介绍#

NeRF直接输出密度场，缺乏语义和上下文，阻碍交互
自然语言是交互的直观接口
- 处理自然语言输入查询的能力
- 多尺度整合语义并关联长尾和相关概念
提出LERF
- 直接利用CLIP，无需微调
- 保留完整性，能够处理广泛的语言查询
以位置和物理尺度为输入，输出单个CLIP向量
训练过程
- 使用包含从训练视图裁剪图像生成的CLIP嵌入的多尺度特征金字塔对该场进行监督
- 使得编码器能够捕捉不同尺度的图像上下文，将同一3D位置与不同尺度的不同语言嵌入关联（例如：厨具-木勺）
测试：可以在任意尺度查询
为了正则化，通过共享瓶颈引入自监督DINO
额外优势
- 3D嵌入获得的相关性图更具有局部化特征
- 不显著降低实现速度的情况下进行训练
- 相关性图是什么（？）

相关工作#

开放词汇物体检测
- 如何在2D图像中根据自然语言提示检测物体
  - LSeh 训练2D图像编码器 …像素级嵌入
  - CRIS… 相关性图
- 这类微调方法在小数据集上训练会丧失语言能力
- 另一种方法是两阶段框架
  - 掩码指引查询位置
  - OpenSeg 预测掩码文本嵌入的同时，学习掩码预测模型
  - ViLD 使用CLIP分类
- 这种方法倾向于在数据集分布内输出
- 分割原始掩码的未标记层次组件面临困难。
- LRTG 通过在一个密集的三维多尺度场中结合语言嵌入来避免区域提议，从而支持层次化文本查询
- Grad-CAM 和基于注意力的方法提供视觉语言模型中图像和文本之间的相关性预测
- 这些框架可以检测长尾对象，LERF输出本质上与这些方法最为相似。
  - 通过查询输出三维相关性分数。然而，构建了一个可以使用不同文本提示进行查询的三维表示
  - 无需每次重建底层表示，并且将多个视角融合到单一的共享场景表示中，而不是逐图像操作
将二维特征蒸馏到NeRF中
- 将特征向量嵌入NeRF
3D语言基础
- 3D视觉问答
- 提供一种新的密集体积化接口用于3D文本查询，可以与广泛的3D语言下游应用集成

语言嵌入辐射场#

在以采样点为中心的体积上学习语言嵌入场
该场的输出是包含指定体积的图像裁剪在所有训练视图中的平均CLIP嵌入

局限#

西葫芦：所有绿色的都出现
桌子：只有边缘被检测

DINO 局部对齐/捕捉#

an NVIDIA A100, which takes roughly 20GB of memory#

一些思考#

从裁剪的图像块中提取CLIP嵌入同样会引发点的歧义问题，因为同一个3D位置可能与不同尺度的语义概念相关。例如，一个位于熊鼻子的点应该对三个不同的文本查询产生较高的响应值：“熊鼻子”、“熊的头”和“熊”，因为该点贡献于这三个层次区域。为了应对这个问题，当前的方法向NeRF引入了额外的绝对尺度输入，在不同尺度下使用图像块级的CLIP特征进行训练，并在查询时多尺度密集渲染2D地图以选择最佳尺度。怎么理解这段话，embedding后，足够高维的情况下，每个层次的特征不是相当于某个维度吗，应该不会相互干扰吧
哪个 embedding 属于哪个尺度。这个问题很重要，相当于LERF是在给定的不同尺度上进行embedding的学习是吧，对于每个点，学习他的局部语义embedding，场景embedding，全局embedding？我在想，维度足够高，熊鼻子这个高维向量，和熊的头，熊都非常接近，不是可以把这些比较大的尺度的特征都提取出来吗？
但是在我学习过的tokenization，embedding中，熊鼻子这个向量，就是会和熊，和鼻子这两个向量非常接近吧
我们能不能想一个分解语义的方法，比如扫描熊鼻子这个语义向量的一个极小的球形区域，提取出来的语义应该都是相关的特征？

LERF： Language Embedded Radiance Fields for Open-Vocabulary 3D Scene Understanding

https://kyc001.github.io/posts/lerf/

作者

kyc001

发布于

2025-11-14

许可协议

CC BY-NC-SA 4.0

LangSplat： Language-Guided 3D Scene Splatting with Implicit Language Fields

Wan 学习笔记

语言嵌入辐射场

语言嵌入辐射场

DINO 局部对齐/捕捉

an NVIDIA A100, which takes roughly 20GB of memory