Hunyuan3D-1
虽然 3D 生成模型极大地改善了艺术家的工作流程,但现有的 3D 生成扩散模型存在生成速度慢、泛化能力差的问题。为了解决这个问题,我们提出了一种名为 Hunyuan3D-1.0 的两阶段方法,包括一个精简版和一个标准版,均支持文本和图像条件生成。 在第一阶段,我们采用多视图扩散模型,该模型可在约 4 秒内高效生成多视图 RGB。这些多视图图像从不同视角捕捉 3D 资产的丰富细节,将任务从单视图简化为多视图重建。在第二阶段,我们引入了前馈重建模型,该模型可在约 7 秒内根据生成的多视图图像快速、忠实地重建 3D 资产。重建网络学习处理多视图扩散引入的噪声和不一致性,并利用条件图像中的可用信息高效恢复 3D 结构。 我们的框架涉及文本转图像模型,即 Hunyuan-DiT,使其成为一个统一的框架,支持文本和图像条件的 3D 生成。我们的标准版本比我们的精简版和其他现有模型多 3 倍参数。我们的 Hunyuan3D-1.0 在速度和质量之间实现了令人印象深刻的平衡,显著缩短了生成时间,同时保持了所生成资产的质量和多样性。