视触觉相关文献阅读
Tactile DreamFusion: Exploiting Tactile Sensing for 3D Generation
- 现有的文本到3d生成,图片到3d生成效果过于光滑或得到错误的反照率贴图;
- 现有2d和3d数据集没有高分辨率数据:相机分辨率不够难以拍到,同时人类自然语言也很难准确描述细节纹理;
- 因此我们用触觉来捕捉高分辨率纹理细节,增强3d生成结果的表面纹理表现;
- 同时我们可以根据自然语言描述,自动完成物体不同部位不同纹理的合成。
现有技术
3d生成:两条线,一条2d diffusion,如DreamFusion,另一条transformer,但transformer只能捕捉全局轮廓,不能渲染细粒度几何细节。
3d生成中的几何表示:voxel grids, point clouds, meshes, NeRF, neural surfaces, Gaussians等;其中mesh最快,同时对主流图形引擎支持度较好。
3d纹理生成和转移:一般几何体和纹理生成分开来做,纹理转移的时候大多数方法只负责外观,我们可以做到真的几何细节。NeRF-Texture也能做带几何细节的纹理转移,但要物体的100-200张图像,而且只能做到厘米级,我们可以利用触觉传感做到毫米级。
触觉感知方法:视触觉能提供表面法线等信息,已被用于2d生成和3d场景重建,我们第一个把它用于3d生成。
数据生成
用GelSight按住物体表面,拿到触觉图像,对其进行深度估计,再用高通滤波器提取纹理深度信息,中心剪裁删去接触不紧密的部分,然后计算其梯度还原成法线贴图。一共收集了18种物品的纹理。拿到normal map作为数据。
方法
text to img: SDXL
img to 3d mesh: Wonder3D
tactile sensing: GelSight mini,21mm×25mm,分辨率240×320像素,每像素长宽85微米。
network:触觉法线贴图损失的优化用 Stable Diffusion V1.4 + LoRA,扩散损失的优化用 Stable Diffusion V1.5 + ControlNet (v1.1 - normalbae version)
扩散损失(Diffusion loss)
扩散损失(Diffusion loss):在扩散模型中,生成图像是通过逐步从噪声中恢复到目标图像的过程。扩散损失衡量了生成图像与目标图像之间的差异,通常用于优化生成过程。
LoRA:低资源微调大模型的方法,通过对大矩阵分解得到低秩矩阵减少调整参数的数量,模型较小(2-200MB)
ControlNet:为扩散模型(如 Stable Diffusion/FLUX.1)提供一种额外的“约束”条件,引导AIGC大模型按照我们期望的构图、姿态或结构来生成图像,减少图像生成的随机性
DreamBooth:基于SD的文生图方法,仅需3张照片即可在原有SD模型上训练出一个新的模型专门用于特定物体的与场景的合成。模型文件较大(2-7GB)
DreamBooth理解
论文中举了一组狗的例子:仅使用 3 张图片作为训练的输入,成型的模型就可以在不同的提示词作用下生成不同场景或不同风格的画面中这种狗狗的画面,且狗狗和对应的提示词所表达的风格与场景融合的相当自然。所以,Dreambooth 模型就像一个“小照相亭”一样,一旦拍照成功,就可以 AI 生成的方式自动 P 到任何一个场景中去,且和场景融入得相当好。

Adam优化器:通过不断调整模型的参数(自变量),使得某个损失函数的值最小化的一种方法。是一种自适应学习率的方法。除了Adam外,还有随机梯度下降(SGD),动量法(Momentum),RMSProp等等,通常Adam用默认的初始学习率表现就很好。
文生图中各种方法与LLM中方法的类比
Rocky相信,Stable Diffusion是AIGC时代的“YOLO”,Stable Diffusion XL是AIGC时代的“YOLOv3”,Stable Diffusion 3是AIGC时代的“YOLOv4”,FLUX.1是AIGC时代的“YOLOv5”,LoRA系列模型是AIGC时代的“ResNet”,那么ControlNet系列模型就是AIGC时代的“Transformer”!
实验
损失函数:四部分组成:视觉匹配VM,触觉匹配TM,视觉引导VG,触觉引导TG
消融实验:去除TG会导致纹理细节减少,去除VG会导致纹理位置不正确
量化指标测试:人工测试,问卷调查
泛用性:本方法叠加的纹理可与不同生成基础mesh的方法集成,如RichDreamer和InstantMesh
问题
Score Distillation Sampling(SDS)
diffusion
NeRF
3d texture field 3d纹理场