1113 字
6 分钟
VIST3A:Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

- 视频模型擅长根据文本提示生成latent内容。3D基础模型擅长解码,生成一致的场景,结合视频生成模型和3D重建网络,对齐laten变量,得到端到端的模型
摘要
- 大型预训练模型发展快
- latent 文本到视频模型作为生成器
- 前馈式 三维重建模型作为解码器
- 通用框架
- 找出三维编码器中最能匹配text-to-video生成模型产生的潜在表示层,对齐
- 直接奖励微调
介绍
- 早期3D生成方法 分数蒸馏采样,2D扩散优化NeRF,3DGS。缺点是需要逐个场景优化
- 另外一类方法使用多阶段流程,先生成图像,再通过单独的模型。升维到3D。缺点是模型复杂,工作量大,累计误差
- 趋势是端到端的潜在扩散模型(压缩几即智能)从2D图像模型或者视频模型出发,进行微调,输出多视角2D潜编码,训练类似VAE的解码器。如图2,类似LDM的设计在latent空间内统一了2D生成和多视角重建。

- 两个主要限制
- 我们认为2D到3D扩散模型致命缺陷在于解码器。三维基础模型的解码能力比文本到三维模型临时训练的解码器强(?为什么会强?怎么训练出来的?)
- 目前训练方案中,生成模型与VAE编码器之间对齐较弱。生成模型在多视图训练集上进行微调,使用扩散损失/流匹配生成目标,仅仅间接促进三维一致性的潜在表示。此外,独立训练会导致潜在表示在解码器的域外,缓解不对齐问题,提出增加渲染损失,但是是基于单步采样的,未考虑去噪轨迹,导致推理阶段的对齐仍较弱
- VIST3A 视频VAE+3D对齐 利用强大的预训练前馈3D模型进行解码。 将3D重建网络的相关部分作为解码器附加在视频VAE的潜在空间上。找到了与LDM潜变量关系最线性的层。 其次通过直接奖励微调进一步改进对齐。通过比较视频模型输出与3D场景渲染的图像实现的。
相关工作
-
3D生成
- 三维表示方式:点云,网格,体素
- 二维扩散模型进行分数蒸馏耗时长,逐场景优化
- 多阶段pipeline 缺乏鲁班性
- 倾向端到端的LDM
- 利用二维图像生成模型隐含的视觉世界全面知识,多视图微调
-
学习3D重建
- 多阶段流水线/迭代优化 -> 端到端的前馈式建模
- 数据是重要因素,训练VAE困难
- 选择了重用模型
-
模型缝合

- 加入一个线性 可训练的 “中间层” 连接A的头部和B的尾部
方法
-
模型拼接
-
直接奖励微调
-
VAE构建
- 缝合LDM编码器 和 前馈3D重建模型
- 步骤1 寻找拼接索引k*。将一组N个样本通过编码器E得到潜变量,对每一层提取,求解最小二乘选择最均方误差最小的k*层 拼接
- 步骤2 拼接解码器微调 微调S和k*+1层 使用LoRA更新k*+1层
-
直接奖励微调
- 奖励函数
- 多视图图像质量
- 用原始视频解码器解码 latent
- 3D表征质量
- 用3D解码器解码生成的3D表征再渲染成2D视图
- 3D一致性
- 预测相机姿态,计算每一对来自相同视角的图像
- 多视图图像质量
- 截断梯度
- 奖励函数
实验结果
- 实验设置
- MVDUSt3R,VGGT,AngSplat
- Wan2.1 T2V CogVideoX SVD Hunyuan
- DL3DV-10K

一些个人思考
- 我觉得这隐含了一个原则,就是3D重建模型和视频生成模型的编码规律是相似的,比如这样使得对于不同的输入样本,能找到同一个S使得能够实现拼接? 那么我再提一个问题,比如不同视频生成模型对于同一个样本,他编码后的 latent向量会是相似的吗? 对于同一个latent样本,不同的3D重建模型解码结果会是一样的吗?
VIST3A:Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
https://kyc001.github.io/posts/vist3a/