
摘要
三维内容生成近年来因在虚拟现实(VR)、增强现实(AR)以及具身人工智能(embodied AI)等领域的广泛应用而受到广泛关注。本文针对在单张场景图像中合成多个三维资产这一具有挑战性的任务展开研究。具体而言,我们的贡献主要体现在四个方面:(i)提出SceneGen——一种新颖的框架,以场景图像及其对应的物体掩码作为输入,能够同时生成具有几何结构与纹理信息的多个三维资产。值得注意的是,SceneGen无需依赖优化过程或资产检索即可完成生成;(ii)设计了一种新型特征聚合模块,该模块在特征提取阶段融合了视觉编码器与几何编码器所提取的局部与全局场景信息,并结合位置预测头,实现了在单次前向传播中同时生成三维资产及其相对空间位置;(iii)验证了SceneGen在多图像输入场景下的直接可扩展性。尽管模型仅在单图像输入数据上进行训练,但其架构设计使其在使用多图像输入时仍能显著提升生成性能;(iv)通过大量定量与定性实验评估,充分证实了本方法在效率与生成鲁棒性方面的优越表现。我们相信,这一范式为高质量三维内容生成提供了全新的解决方案,有望推动其在下游任务中的实际应用。代码与模型将公开发布于:https://mengmouxu.github.io/SceneGen。