Stability AI 与 Tripo AI 合作推出了 TripoSR,这是一种旨在将图像快速转换为高质量 3D 模型的工具。TripoSR的灵感来自单张图像到3D的大型重建模型,旨在满足各种行业的需求,包括娱乐、游戏、工业设计和建筑。尽管 TripoSR 令人兴奋,但 Stability AI 在其数据收集方法方面面临着一些道德问题,其中包括从 Midjourney 抓取训练数据。这导致 Stability 的员工被禁止使用 Midjourney 的服务。
- 合作伙伴发布:与 Tripo AI 合作开发,引入 TripoSR,可在一秒钟内从单个图像生成高质量的 3D 模型。
- 低推理预算:在低计算资源(包括没有 GPU 的环境)下有效运行,使其可供广泛的用户群使用。
- 开源可用性:模型权重和源代码在 MIT 许可下发布,支持商业、个人和研究应用程序。
- 灵感与应用:受LRM(单图像到3D的大型重建模型)的启发,TripoSR设计用于娱乐,游戏,工业设计和建筑,提供快速的3D对象可视化。
- 性能:优于 OpenLRM 等其他型号,在 Nvidia A100 GPU 上可在大约 0.5 秒内提供草稿质量的 3D 纹理网格。
- 辅助功能:用户无需 GPU 资源即可完全访问。
- 技术创新:包括从 Objaverse 数据集的精选 CC-BY 子集准备训练数据、通道号优化、掩码监督和高效的裁剪渲染策略,以提高模型泛化和性能。
很快,只需点击几下,就可以将简单的照片转换为详细的 3D 模型。这不再是一个遥远的梦想,这要归功于 Stability AI 和 Tripo AI 的共同努力,他们推出了 TripoSR,这是一种重塑我们对 3D 建模思维方式的新工具。这项创新技术有望通过简化创建 3D 模型的过程并使其更具成本效益,对娱乐、游戏和建筑等行业产生重大影响。
TripoSR建立在单图像到3D的大型重建模型(LRM)框架之上,该框架以其技术实力和广泛的用途而闻名。TripoSR的与众不同之处在于它能够在功能较弱的计算机上高效运行,这意味着您不需要昂贵的图形处理单元(GPU)来使用它。对于小型企业和独立创作者来说,这是个好消息,他们以前可能会发现生成 3D 模型的成本高得令人望而却步。TripoSR模型的代码现在可以在Tripo AI的GitHub上找到,模型权重可以在Hugging Face上找到。
TripoSR最令人兴奋的方面之一是它是在MIT许可下发布的。这意味着任何人都可以将其用于商业项目、个人努力或研究目的,而不必担心许可费。这种访问水平可以激发一波创造力,并导致不同部门的 3D 建模质量显着提高。
TripoSR从图像创建3D模型
与原始LRM模型相比,TripoSR经历了多项增强。这些改进包括通道优化和掩模监督的增加,这些改进共同增强了其生成的 3D 模型的细节和准确性。最终结果是一个工具,不仅运行快速,而且提供的模型比类似技术(如OpenLRM)创建的模型更精细。
逼真的 AI 生成的 3D 模型
为了确保3D模型尽可能逼真,TripoSR使用各种渲染技术进行训练。这种方法提高了该工具解释和重新创建真实世界图像的能力,从而生成既逼真又复杂的模型。对于那些有兴趣进一步探索TripoSR或为其开发做出贡献的人,模型权重和源代码可以在GitHub和Hugging Face等平台上公开获得。还有一份详细的技术报告,提供有关该工具工作原理的深入信息。
展望未来,将图像转 3D 技术集成到即将推出的 Stable Diffusion 3 模型中,预计将增强逼真视频和沉浸式体验的创建。这一进步可以重新定义视觉媒体,为创作者提供新的方式,以前所未有的细节和深度将他们的想法变为现实。
TripoSR代表了图像到3D技术向前迈出的重要一步。它的可负担性、开放许可和技术改进将赋予世界各地的创作者和行业权力。尽管面临一些道德障碍,但对其功能和未来应用的重视是坚定不移的,这标志着一个真实且易于访问的 3D 模型成为常态的时代的到来。