A nova robótica do Google ai pode correr sem a nuvem e ainda amarrar seus sapatos

Publicidade

Às vezes, chamamos chatbots como Gemini e Chatgpt “Robots”, mas a IA generativa também está desempenhando um papel crescente em robôs físicos reais. Depois de anunciar a Gemini Robotics no início deste ano, o Google Deepmind agora revelou um novo modelo de VLA (ação da linguagem da visão) para controlar os robôs. Ao contrário da versão anterior, não há componente em nuvem, permitindo que os robôs operem com autonomia total.

Carolina Parada, chefe de robótica do Google Deepmind, diz que essa abordagem da AI Robotics pode tornar os robôs mais confiáveis ​​em situações desafiadoras. Esta também é a primeira versão do modelo de robótica do Google que os desenvolvedores podem ajustar seus usos específicos.

A robótica é um problema único para a IA porque, não apenas o robô existe no mundo físico, mas também muda seu ambiente. Esteja você a mover bloquear ou amarrar seus sapatos, é difícil prever todas as eventualidade que um robô possa encontrar. A abordagem tradicional de treinar um robô em ação com reforço foi muito lenta, mas a IA generativa permite uma generalização muito maior.

“Está desenhando do entendimento multimodal do mundo de Gêmeos para realizar uma tarefa completamente nova”, explica Carolina Parada. “O que isso permite é da mesma maneira que os gêmeos podem produzir texto, escrever poesia, apenas resumir um artigo, você também pode escrever código e também pode gerar imagens. Ele também pode gerar ações de robôs”.

Robôs gerais, nenhuma nuvem necessária

No lançamento anterior da Gemini Robotics (que ainda é a versão “melhor” da tecnologia robótica do Google), as plataformas executavam um sistema híbrido com um modelo pequeno no robô e um maior na nuvem. Você provavelmente assistiu aos chatbots “Think” por segundos mensuráveis ​​ao gerar uma saída, mas os robôs precisam reagir rapidamente. Se você disser ao robô para pegar e mover um objeto, não deseja que ele pause enquanto cada etapa é gerada. O modelo local permite adaptação rápida, enquanto o modelo baseado em servidor pode ajudar com tarefas complexas de raciocínio. O Google DeepMind agora está desencadeando o modelo local como um VLA independente, e é surpreendentemente robusto.

Subscribe
Notificar de
guest
0 Comentários
Mais antigo
O mais novo Mais Votados
Feedbacks embutidos
Ver todos os comentários

Publicidade

Publicidade