北大联合小红书推出Dive3D:文本到3D模型生成框架

Dive3D 介绍

Dive3D是北京大学与小红书联合研发的文本到3D生成框架,其技术创新聚焦于通过分数隐式匹配(Score Implicit Matching,SIM)损失替代传统KL散度目标,从根本上解决模式坍塌问题,大幅提升3D生成内容的多样性。该框架在文本对齐精度、人类偏好适配及视觉保真度方面表现突出,于GPTEval3D基准测试中取得优异定量结果,充分验证了其在高质量、多样化3D资产生成领域的领先能力。北大联合小红书推出Dive3D:文本到3D模型生成框架

项目地址

项目官网:https://ai4scientificimaging.org/dive3d/

GitHub仓库:https://github.com/ai4imaging/dive3d

arXiv技术论文:https://arxiv.org/pdf/2506.13594

四大核心功能

3D内容创作

突破传统方法局限,基于文本提示生成多元风格与细节的3D模型,有效规避生成结果单一化的模式坍塌问题。

3D模型构建

支持生成具备精细纹理细节、逼真几何形态及合理光照效果的3D模型,实现视觉呈现的高度真实感。

精准文本语义对齐

确保生成的3D模型与输入文本描述深度匹配,准确还原文本中提及的各类元素与特征。

多形式3D表征支持

覆盖神经辐射场(NeRF)、高斯点云(Gaussian Splatting)、网格(Mesh)等多种3D表示形式

技术原理

分数隐式匹配(SIM)损失机制

作为Dive3D的核心技术,传统基于KL散度的损失函数(如SDS中应用的)易导致生成模型倾向高密度区域样本,限制多样性。SIM损失直接匹配生成内容的概率密度梯度场与扩散先验分数,鼓励模型探索多高概率区域,实现保真度与多样性的平衡。

统一散度视角框架

将扩散蒸馏与奖励引导优化整合至统一框架,包含条件扩散先验损失(CDP)、无条件扩散先验损失(UDP)和奖励损失(ER)三大核心散度损失,通过权重合理配置,在多样性、文本对齐与视觉质量间取得最佳平衡。

基于扩散模型的优化策略

以预训练2D扩散模型(如Stable Diffusion)为先验,通过多视图渲染将3D表示优化为与文本提示匹配的2D图像,经迭代渲染、损失计算与参数更新,使3D模型渲染图像逐步贴近预训练模型期望的图像分布。

高效优化算法设计

引入分类器自由引导(CFG)技术平衡文本条件与无条件生成效果,通过噪声时间表与优化步长等参数的合理设置,加速优化收敛并缩短生成时间。

多元应用场景

游戏开发领域

可依据游戏剧本描述自动生成多风格角色、道具与场景模型,降低美术设计工作量。

影视制作场景

为电影、剧集及动画提供创意原型与概念设计,导演与美术团队进行视觉创意构思。

建筑设计领域

根据文本描述快速生成建筑模型,便于建筑师展示设计概念、开展方案比较与优化。

虚拟场景构建

为VR/AR应用生成逼真虚拟场景与物体,如虚拟旅游中根据地点描述生成对应3D场景

科学教育场景

生成生物细胞、分子结构等复杂科学模型,辅助学生理解抽象科学概念

© 版权声明

相关文章

暂无评论

暂无评论...