Dive3D 介绍
Dive3D是北京大学与小红书联合研发的文本到3D生成框架,其技术创新聚焦于通过分数隐式匹配(Score Implicit Matching,SIM)损失替代传统KL散度目标,从根本上解决模式坍塌问题,大幅提升3D生成内容的多样性。该框架在文本对齐精度、人类偏好适配及视觉保真度方面表现突出,于GPTEval3D基准测试中取得优异定量结果,充分验证了其在高质量、多样化3D资产生成领域的领先能力。
项目地址
项目官网:https://ai4scientificimaging.org/dive3d/
GitHub仓库:https://github.com/ai4imaging/dive3d
arXiv技术论文:https://arxiv.org/pdf/2506.13594
四大核心功能
3D内容创作
突破传统方法局限,基于文本提示生成多元风格与细节的3D模型,有效规避生成结果单一化的模式坍塌问题。
3D模型构建
支持生成具备精细纹理细节、逼真几何形态及合理光照效果的3D模型,实现视觉呈现的高度真实感。
精准文本语义对齐
确保生成的3D模型与输入文本描述深度匹配,准确还原文本中提及的各类元素与特征。
多形式3D表征支持
覆盖神经辐射场(NeRF)、高斯点云(Gaussian Splatting)、网格(Mesh)等多种3D表示形式
技术原理
分数隐式匹配(SIM)损失机制
作为Dive3D的核心技术,传统基于KL散度的损失函数(如SDS中应用的)易导致生成模型倾向高密度区域样本,限制多样性。SIM损失直接匹配生成内容的概率密度梯度场与扩散先验分数,鼓励模型探索多高概率区域,实现保真度与多样性的平衡。
统一散度视角框架
将扩散蒸馏与奖励引导优化整合至统一框架,包含条件扩散先验损失(CDP)、无条件扩散先验损失(UDP)和奖励损失(ER)三大核心散度损失,通过权重合理配置,在多样性、文本对齐与视觉质量间取得最佳平衡。
基于扩散模型的优化策略
以预训练2D扩散模型(如Stable Diffusion)为先验,通过多视图渲染将3D表示优化为与文本提示匹配的2D图像,经迭代渲染、损失计算与参数更新,使3D模型渲染图像逐步贴近预训练模型期望的图像分布。
高效优化算法设计
引入分类器自由引导(CFG)技术平衡文本条件与无条件生成效果,通过噪声时间表与优化步长等参数的合理设置,加速优化收敛并缩短生成时间。
多元应用场景
游戏开发领域
可依据游戏剧本描述自动生成多风格角色、道具与场景模型,降低美术设计工作量。
影视制作场景
为电影、剧集及动画提供创意原型与概念设计,导演与美术团队进行视觉创意构思。
建筑设计领域
根据文本描述快速生成建筑模型,便于建筑师展示设计概念、开展方案比较与优化。
虚拟场景构建
为VR/AR应用生成逼真虚拟场景与物体,如虚拟旅游中根据地点描述生成对应3D场景
科学教育场景
生成生物细胞、分子结构等复杂科学模型,辅助学生理解抽象科学概念