O sistema LEGOGPT funciona em três partes, mostrado neste diagrama.
Crédito: Pun et al.
Os pesquisadores também expandiram as habilidades do sistema adicionando opções de textura e cores. Por exemplo, usando um prompt de aparência como “guitarra elétrica em roxo metálico”, o Legogpt pode gerar um modelo de guitarra, com tijolos atribuídos uma cor roxa.
Testando com robôs e humanos
Para provar que seus projetos funcionaram na vida real, os pesquisadores fizeram robôs montar os modelos LEGO criados pela AI. Eles usaram um sistema de braço de robô duplo com sensores de força para captar e colocar tijolos de acordo com as instruções geradas pela IA.
Os testadores humanos também construíram alguns dos designs manualmente, mostrando que a IA cria modelos genuinamente edificáveis. “Nossos experimentos mostram que o LEGOGPT produz designs LEGO estáveis, diversos e esteticamente agradáveis que se alinham de perto com os avisos de texto de entrada”, observou a equipe em seu artigo.
Quando testado contra outros sistemas de IA para criação 3D, o Legogpt se destaca através de seu foco na integridade estrutural. A equipe testou contra várias alternativas, incluindo os modelos de lhama-malha e outros modelos de geração 3D, e encontrou sua abordagem produzindo a maior porcentagem de estruturas estáveis.
Um vídeo de dois armas de robô construindo uma criação de Legogpt, fornecida pelos pesquisadores.
Ainda assim, existem algumas limitações. A versão atual do LEGOGPT funciona apenas dentro de um espaço de construção de 20 × 20 × 20 e usa meros oito tipos de tijolos padrão. “Nosso método atualmente suporta um conjunto fixo de tijolos Lego comumente usados”, reconheceu a equipe. “Em trabalhos futuros, planejamos expandir a biblioteca de tijolos para incluir uma gama mais ampla de dimensões e tipos de tijolos, como encostas e telhas”.
Os pesquisadores também esperam ampliar seu conjunto de dados de treinamento para incluir mais objetos do que as 21 categorias atualmente disponíveis. Enquanto isso, outros podem literalmente desenvolver seu trabalho – os pesquisadores lançaram seu conjunto de dados, código e modelos no site do projeto e no Github.