卡内基梅隆大学开源LegoGPT 用AI设计乐高模型

摘要:

卡内基梅隆大学开源了LegoGPT,这是一种能够根据文本提示生成物理乐高模型的创新方法。在乐高积木设计领域,以往的研究主要集中在从给定的 3D 对象创建乐高设计,或者局限于单一对象类别,无法满足从自由形式文本提示直接生成乐高设计的需求。

而通过LegoGPT可以轻松搞定这些设计,例如,当用户输入“一座带有尖塔和彩色玻璃的中世纪城堡”文本提示时,LEGOGPT会先规划城堡的整体结构,确定主体、城墙、塔楼和尖塔的位置与形状,然后挑选合适尺寸和形状的积木进行搭建。

对于彩色玻璃部分,会运用纹理和颜色生成技术,为积木赋予五彩斑斓的效果,最终生成一个完整且物理稳定的乐高城堡模型。

传统的大语言模型主要用于文本生成和自然语言理解任务,研究人员巧妙地将其重新用于预测乐高砖块的放置顺序。这种方法的关键在于将乐高设计问题转化为一个自回归文本生成任务,通过简单的文本格式指定每一块砖的尺寸和放置位置。

这种转化不仅充分利用了语言模型在序列生成方面的强大能力,还为乐高设计提供了一种全新的、基于文本的表达方式。


为了训练高质量模型,研究人员开发了一个超大规模的、物理稳定的乐高设计数据集StableText2Lego。一共包含了超过47,000个不同的Lego结构,涵盖了来自ShapeNetCore数据集的28,000多个独特的3D对象,这些对象被分为21个常见的物体类别。每个结构都配有详细的文本描述和稳定性评分,这些评分用于评估其物理稳定性和可构建性。

研究人员首先将ShapeNetCore中的3D网格模型转换为乐高结构。然后将3D网格体素化到一个20×20×20的网格世界中,以确保一致的尺度,并通过一种分割和合并的乐高化算法生成砖块布局。


为了提高数据质量和多样性,团队在乐高化过程中引入了随机性,为同一个3D对象生成多个不同的乐高结构。此外,他们还使用了一种稳定性分析方法来评估每个结构的物理稳定性,只保留那些所有砖块的稳定性评分都大于0的结构。

在模型训练方面,LegoGPT是基于LLaMA-3.2-1B-Instruct微调而成,能够理解文本提示并生成相应的乐高设计。为了进一步提高模型的性能,研究人员构建了一个专门的指令微调数据集,其中包含了文本提示和对应的乐高结构。


每个稳定的设计和其对应的描述都被构建成一个指令,格式为:“(用户)根据{描述}创建一个乐高模型。(助手){Lego设计}。”通过这种方式,模型能够学习如何根据文本描述生成具体的乐高设计。

LegoGPT除了能生成乐高模型外,还能够为这些结构生成详细的纹理和颜色,可以将详细的UV纹理或统一的颜色分配给每个砖块。

对于给定的乐高结构及其对应的网格模型,首先识别出所有被相邻砖块完全覆盖的砖块,并将其移除以提高效率。然后,将剩余的砖块合并成一个单一的网格模型,并通过立方体投影生成UV映射。接着,利用一种快速的基于文本的网格纹理生成方法FlashTex,根据文本提示生成纹理贴图。这种方法不仅能够为Lego模型提供丰富的视觉细节,还能确保这些纹理与用户的描述高度一致。

目前,LegoGPT刚开源没几天已经快破1000颗星了,在应用场景方面非常广泛。在教育领域,教师可以利用它根据教学内容生成各种乐高模型示例,帮助学生更直观地理解复杂的概念,如历史建筑的结构、科学实验装置等,激发学生的学习兴趣和创造力。

在玩具设计行业,设计师可以借助 LegoGPT 快速将创意转化为实际的乐高模型原型,大大缩短设计周期,提高设计效率,为市场带来更多新颖有趣的乐高玩具产品。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan