1113 字

6 分钟

VIST3A：Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

2025-11-28

/

3D重建

/

场景理解

VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator#

摘要#

早期3D生成方法分数蒸馏采样，2D扩散优化NeRF，3DGS。缺点是需要逐个场景优化
另外一类方法使用多阶段流程，先生成图像，再通过单独的模型。升维到3D。缺点是模型复杂，工作量大，累计误差
趋势是端到端的潜在扩散模型（压缩几即智能）从2D图像模型或者视频模型出发，进行微调，输出多视角2D潜编码，训练类似VAE的解码器。如图2，类似LDM的设计在latent空间内统一了2D生成和多视角重建。
两个主要限制
我们认为2D到3D扩散模型致命缺陷在于解码器。三维基础模型的解码能力比文本到三维模型临时训练的解码器强（？为什么会强？怎么训练出来的？）
目前训练方案中，生成模型与VAE编码器之间对齐较弱。生成模型在多视图训练集上进行微调，使用扩散损失/流匹配生成目标，仅仅间接促进三维一致性的潜在表示。此外，独立训练会导致潜在表示在解码器的域外，缓解不对齐问题，提出增加渲染损失，但是是基于单步采样的，未考虑去噪轨迹，导致推理阶段的对齐仍较弱
VIST3A 视频VAE+3D对齐利用强大的预训练前馈3D模型进行解码。将3D重建网络的相关部分作为解码器附加在视频VAE的潜在空间上。找到了与LDM潜变量关系最线性的层。其次通过直接奖励微调进一步改进对齐。通过比较视频模型输出与3D场景渲染的图像实现的。

模型拼接
直接奖励微调
VAE构建
- 缝合LDM编码器和前馈3D重建模型
- 步骤1 寻找拼接索引k*。将一组N个样本通过编码器E得到潜变量，对每一层提取，求解最小二乘选择最均方误差最小的k*层拼接
- 步骤2 拼接解码器微调微调S和k*+1层使用LoRA更新k*+1层
直接奖励微调
- 奖励函数
  - 多视图图像质量
    - 用原始视频解码器解码 latent
  - 3D表征质量
    - 用3D解码器解码生成的3D表征再渲染成2D视图
  - 3D一致性
    - 预测相机姿态，计算每一对来自相同视角的图像
- 截断梯度

我觉得这隐含了一个原则，就是3D重建模型和视频生成模型的编码规律是相似的，比如这样使得对于不同的输入样本，能找到同一个S使得能够实现拼接？那么我再提一个问题，比如不同视频生成模型对于同一个样本，他编码后的 latent向量会是相似的吗？对于同一个latent样本，不同的3D重建模型解码结果会是一样的吗？