Bytedance apresenta Astra: Uma arquitetura de modelo duplo para navegação de robô autônoma

Publicidade

A crescente integração de robôs em vários setores, desde a fabricação industrial até a vida cotidiana, destaca uma necessidade crescente de sistemas avançados de navegação. No entanto, os sistemas de navegação de robôs contemporâneos enfrentam desafios significativos em ambientes internos diversos e complexos, expondo as limitações das abordagens tradicionais. Abordando as questões fundamentais de “Onde estou?”, “Para onde estou indo?” E “Como chego lá?”, Bytedance desenvolveu Astra, uma arquitetura inovadora de modelo duplo projetado para superar esses gargalos tradicionais de navegação e permitir robôs móveis de uso geral.

Os sistemas de navegação tradicionais geralmente consistem em módulos múltiplos, menores e geralmente baseados em regras para lidar com os principais desafios da localização do alvo, auto-localização e planejamento de caminhos. A localização do destino envolve a compreensão da linguagem natural ou pistas de imagem para identificar um destino em um mapa. A auto-localização requer um robô para determinar sua posição precisa dentro de um mapa, especialmente desafiador em ambientes repetitivos, como armazéns, onde os métodos tradicionais geralmente dependem de marcos artificiais (por exemplo, códigos QR). O planejamento do caminho se divide ainda mais no planejamento global para geração de rota aproximada e planejamento local para evitar os obstáculos em tempo real e atingir pontos de referência intermediários.

Embora os modelos de fundação tenham demonstrado prometer na integração de modelos menores para resolver tarefas mais amplas, o número ideal de modelos e sua integração eficaz para a navegação abrangente permaneceram uma questão em aberto.

O Astra da Bytedance, detalhado em seu artigo “Astra: em direção a robôs móveis de uso geral por meio de aprendizado multimodal hierárquico” (site: https://astra-mobility.github.io/) aborda essas limitações. Seguindo o paradigma do sistema 1/sistema, o Astra possui dois submodelos primários: Astra-global e Astra-Local. A Astra-Global lida com tarefas de baixa frequência, como alvo e auto-localização, enquanto o Astra-Local gerencia tarefas de alta frequência, como planejamento de caminhos locais e estimativa de odometria. Essa arquitetura promete revolucionar como os robôs navegam em espaços internos complexos.

Astra-global: o cérebro inteligente para a localização global

O Astra-Global serve como o núcleo inteligente da arquitetura Astra, responsável por tarefas críticas de baixa frequência: auto-localização e localização de destino. Funciona como um Modelo de grande linguagem multimodal (MLLM)adepto no processamento de entradas visuais e linguísticas para obter um posicionamento global preciso dentro de um mapa. Sua força está em utilizar um Gráfico topológico-semântico híbrido Como entrada contextual, permitindo que o modelo localize com precisão as posições com base em imagens de consulta ou solicitações de texto.

A construção deste sistema de localização robusta começa com Mapeamento offline. A equipe de pesquisa desenvolveu um método offline para construir um gráfico híbrido topológico-semântico G = (V, E, L):

  • V (nós): Os quadros-chave, obtidos pela redução temporal da amostragem de vídeo de entrada e da câmera de 6 graus de liberdade (DOF) estimada por SFM, atuam como nós que codificam as poses da câmera e referências marcantes.
  • E (arestas): As bordas não direcionadas estabelecem conectividade com base em poses de nó relativas, cruciais para o planejamento global de caminhos.
  • L (marcos): As informações semânticas de referência são extraídas pela Astra-global dos dados visuais em cada nó, enriquecendo o entendimento semântico do mapa. Esses marcos armazenam atributos semânticos e estão conectados a vários nós por meio de relacionamentos de co-visibilidade.

Na localização prática, a auto-localização e a localização do alvo Astra-Global aproveitar Processo de duas etapas grossas a finas para localização em linguagem visual. O estágio grosso analisa imagens de entrada e instruções de localização, detecta marcos, estabelece correspondência com um mapa de referência pré-construído e filtra os candidatos com base na consistência visual. O estágio fino usa a imagem da consulta e a saída grossa para amostra de nós de referência do mapa do mapa offline, comparando suas informações visuais e posicionais para produzir diretamente a pose prevista.

Para Localização de destino baseada em idiomaso modelo interpreta as instruções da linguagem natural, identifica marcos relevantes usando suas descrições funcionais no mapa e, em seguida, aproveita os mecanismos de associação de referência para o nó para localizar nós relevantes, recuperando imagens de destino e poses de 6-DOF.

Para capacitar o Astra-Global com habilidades de localização robustas, a equipe empregou uma metodologia de treinamento meticulosa. Usando QWEN2.5-VL Como espinha dorsal, eles combinaram Ajuste fino supervisionado (SFT) com Otimização relativa de política do grupo (GRPO). A SFT envolveu diversos conjuntos de dados para várias tarefas, incluindo localização grossa e fina, detecção de co-visibilidade e estimativa de tendência de movimento. Na fase GRPO, uma função de recompensa baseada em regras (incluindo formato, extração de marcos, correspondência de mapas e recompensas de referência extra) foi usada para treinar para localização em linguagem visual. As experiências mostraram que o GRPO melhorou significativamente a generalização zero-tiro da Astra-Global, alcançando a precisão de localização de 99,9% em ambientes domésticos invisíveis, superando os métodos somente SFT.

Astra-Local: o Assistente Inteligente para o Planejamento Local

A Astra-Local atua como assistente inteligente das tarefas de alta frequência da Astra, uma rede de várias tarefas capaz de gerar caminhos locais com eficiência e estimar com precisão a odometria a partir dos dados do sensor. Sua arquitetura compreende três componentes principais: um Codificador espaço-temporal 4Da Chefe de planejamentoe um cabeça de odometria.

O Codificador espaço-temporal 4D Substitui os módulos tradicionais de percepção e previsão da pilha móvel. Começa com um Codificador espacial 3D que processa n imagens omnidirecionais através de um transformador de visão (VIT) e elevação-Splat-thoot para converter recursos de imagem 2D em recursos de voxel 3D. Este codificador 3D é treinado usando aprendizado auto-supervisionado por meio de renderização neural diferenciável 3D volumétrica. O codificador espaço-temporal 4D se baseia no codificador 3D, levando os recursos do voxel passados ​​e futuros registros de data e hora como entrada para prever futuros recursos de voxel por meio de módulos Resnet e DIT, fornecendo representações ambientais atuais e futuras para planejamento e odometria.

O Chefe de planejamentocom base em recursos 4D pré-treinados, velocidade do robô e informações de tarefas, gera trajetórias executáveis ​​usando Correspondência de fluxo baseada em transformador. Para evitar colisões, o chefe de planejamento incorpora um Perda de ESDF mascarada (Campo de distância assinada pelo euclidiano). Essa perda calcula o ESDF de um mapa de ocupação 3D e aplica uma máscara de trajetória da verdade em 2D, reduzindo significativamente as taxas de colisão. As experiências demonstram seu desempenho superior na taxa de colisão e na pontuação geral nos conjuntos de dados fora da distribuição (OOD) em comparação com outros métodos.

O cabeça de odometria prevê a pose relativa do robô usando recursos atuais e anteriores e dados adicionais do sensor (por exemplo, IMU, dados da roda). Ele treina um modelo de transformador para fundir informações de diferentes sensores. Cada modalidade do sensor é processada por um tokenizador específico, combinado com incorporação de modalidade e incorporações posicionais temporais, alimentada em um codificador de transformador e finalmente usa um token CLS para prever a pose relativa. As experiências mostraram o excelente desempenho do chefe de odometria na estimativa de fusão e pose de vários sensores, melhorando significativamente a precisão rotacional e reduzindo o erro geral da trajetória.


Validação experimental

Experiências extensas foram realizadas em diversos ambientes internos (armazéns, escritórios, casas) para avaliar de forma abrangente o desempenho da Astra.

Os recursos de localização multimodal da Astra-Global foram validados por meio de vários experimentos, demonstrando desempenho superior no manuseio de consultas de localização de texto e imagem. Para localização do destino, identifica com precisão imagens e poses correspondentes com base em comandos de texto (por exemplo, “Encontre a área de repouso”). Comparado aos métodos tradicionais de reconhecimento de lugares visuais (VPR), o Astra-Global exibe vantagens significativas em:

  • Captura de detalhes: Diferentemente da dependência do VPR em recursos globais, o Astra-Global captura precisamente detalhes finos, como números de quartos, impedindo erros de localização em cenas semelhantes.
  • Robustez do ponto de vista: Com base em pontos de referência semânticos, o Astra-global mantém a localização estável, mesmo com grandes alterações no ângulo da câmera, onde os métodos VPR normalmente falham.
  • Precisão de pose: O Astra-Global aproveita as relações espaciais marcantes para selecionar a melhor pose de correspondência, mostrando uma precisão de pose significativamente maior (dentro de um erro de distância de 1 metro e erro angular de 5 graus) do que o VPR tradicional, com mais de 30% de melhoria nos ambientes de armazém.

As cabeças de planejamento e odometria da Astra-Local foram bem avaliadas. A cabeça do planejamento, usando a correspondência de fluxo baseada em transformador e a perda de ESDF mascarada, superando métodos como políticas de ACT e difusão na taxa de colisão, velocidade e pontuação geral nos conjuntos de dados OOD. Isso destaca a eficácia da perda de ESDF mascarada na mitigação dos riscos de colisão.

O desempenho do chefe de odometria foi avaliado em conjuntos de dados multimodais, incluindo sequências de imagem sincronizadas, IMU, dados de rodas e poses de verdade no solo. Comparado às linhas de base do BEV-ADOM de dois quadros, a cabeça de odometria do Astra-Local mostrou vantagens significativas na fusão multi-sensor e na estimativa de pose. A integração de dados da IMU melhorou drasticamente a precisão da estimativa rotacional, reduzindo o erro geral da trajetória para aproximadamente 2%. Inclusão adicional dos dados de rodas estabilidade e precisão da escala aprimorada, validando seus recursos superiores de fusão de dados de vários sensores.

A Astra tem uma promessa significativa para o desenvolvimento e aplicações futuras. Sua implantação pode ser expandida para ambientes internos mais complexos, como grandes shoppings, hospitais e bibliotecas, onde pode ajudar em tarefas como localização precisa do produto, entrega eficiente de fornecimento médico e organização de livros.

No entanto, existem áreas de melhoria. Para o Astra-Global, enquanto as representações atuais do mapa equilibram a perda de informações e a duração do token, eles podem ocasionalmente carecer de detalhes semânticos críticos. Trabalhos futuros se concentrarão em métodos alternativos de compactação de mapas para otimizar a eficiência e maximizar a retenção de informações semânticas. Além disso, a localização atual de quadro único pode falhar em ambientes de escarpe de recursos ou altamente repetitivos; Os planos futuros incluem mecanismos de exploração ativos e raciocínio temporal para localização mais robusta.

Para o Astra-Local, melhorar a robustez dos cenários de distribuição (OOD) é crucial, exigindo arquiteturas de modelos aprimoradas e métodos de treinamento. Redesenhar o sistema de fallback para integração mais rígida e comutação perfeita também está planejada para melhorar a estabilidade do sistema. Além disso, a integração de recursos de seguidores de instruções permitirá que os robôs compreendam e executem comandos de linguagem natural, expandindo sua usabilidade em ambientes dinâmicos e centrados no ser humano e promovendo uma interação mais natural do humano-robô humano.

Subscribe
Notificar de
guest
0 Comentários
Mais antigo
O mais novo Mais Votados
Feedbacks embutidos
Ver todos os comentários

Publicidade

Publicidade