AlphaEvolve do Google: o agente da IA ​​que recuperou 0,7% da computação do Google – e como copiá -lo

Publicidade

Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


O novo AlphaEvolve do Google mostra o que acontece quando um agente de IA se forma da demonstração do laboratório para o trabalho de produção, e você terá uma das empresas de tecnologia mais talentosas que o impulsionam.

Construído pelo DeepMind do Google, o sistema reescreve o código crítico de forma autônoma e já se paga dentro do Google. Ele quebrou um recorde de 56 anos em multiplicação de matriz (o núcleo de muitas cargas de trabalho de aprendizado de máquina) e recuperaram 0,7% da capacidade de computação nos data centers globais da empresa.

Esses feitos de título são importantes, mas a lição mais profunda para os líderes de tecnologia corporativa é como Alphavolve os retira. Sua arquitetura-controlador, modelos de rascunho rápido, modelos de pensamento profundo, avaliadores automatizados e memória de versão-ilustra o tipo de encanamento de grau de produção que torna os agentes autônomos seguros para implantar em escala.

A tecnologia de IA do Google é indiscutivelmente inigualável. Portanto, o truque é descobrir como aprender com ele ou até mesmo usá -lo diretamente. O Google diz que um programa de acesso antecipado está chegando para parceiros acadêmicos e que “disponibilidade mais ampla” está sendo explorada, mas os detalhes são magros. Até então, o AlphaEvolve é um modelo de melhor prática: se você deseja agentes que tocam cargas de trabalho de alto valor, você precisará de orquestração, teste e corrimão comparáveis.

Considere apenas o vitória no data center. O Google não colocará um preço nos 0,7%recuperado, mas seu Capex anual executa dezenas de bilhões de dólares. Até uma estimativa aproximada coloca a economia nas centenas de milhões anualmente –Chega, como o desenvolvedor independente Sam Witteveen observou em nosso podcast recente, para pagar pelo treinamento de um dos principais modelos de Gemini, estimado em mais de US $ 191 milhões para uma versão como a Gemini Ultra.

VentureBeat foi o primeiro a relatar o AlphaEvolve News no início desta semana. Agora vamos nos aprofundar: como o sistema funciona, onde a barra de engenharia realmente se senta e as etapas de concreto podem tomar para construir (ou comprar) algo comparável.

1. Além dos scripts simples: a ascensão do “sistema operacional do agente”

O AlphaEvolve é executado no que é melhor descrito como um sistema operacional de agente – um pipeline assíncrono distribuído, construído para melhoria contínua em escala. Suas peças principais são um controlador, um par de modelos de idiomas grandes (Gêmeos Flash for Lank; Gemini Pro para profundidade), um banco de dados de memória de programa de versão e uma frota de trabalhadores do avaliador, todos sintonizados para alta taxa de transferência, em vez de apenas baixa latência.

Uma visão geral de alto nível da estrutura do agente alfa-evolve. Fonte: papel alfa -evolve.

Essa arquitetura não é conceitualmente nova, mas a execução é. “É apenas uma execução incrivelmente boa”, diz Witteveen.

O artigo da AlphaEvolve descreve o orquestrador como um “Algoritmo evolutivo que desenvolve gradualmente programas que melhoram a pontuação nas métricas de avaliação automatizada” (p. 3); Em suma, um “Pipeline autônomo do LLMS cuja tarefa é melhorar um algoritmo fazendo alterações diretas no código” (p. 1).

Takeaway for Enterprises: Se seus planos de agente incluirem execuções não supervisionadas em tarefas de alto valor, planeje infraestrutura semelhante: filas de empregos, um armazenamento de memória de versão, rastreamento de malha de serviço e caixa de areia segura para qualquer código que o agente produza.

2. O Motor do Avaliador: Progresso de dirigir com feedback objetivo automatizado

Um elemento -chave do AlphaEvolve é sua rigorosa estrutura de avaliação. Toda iteração proposta pelo par de LLMs é aceita ou rejeitada com base em uma função de “avaliar” fornecida pelo usuário que retorna métricas gradáveis ​​por máquina. Esse sistema de avaliação começa com verificações de teste unitário ultra-rápido em cada alteração de código proposta-testes simples e automáticos (semelhantes aos desenvolvedores de testes de unidade já escrevem) que verificam o snippet ainda compila e produz as respostas certas em um punhado de micro-entrada-antes de passar os sobreviventes em críticas mais pesadas e críticas llm-comidas. Isso funciona em paralelo, para que a pesquisa permaneça rápida e segura.

Em resumo: deixe os modelos sugerirem correções e verifique cada um em relação aos testes em que você confia. O AlphaEvolve também suporta otimização multi-objetiva (otimizando a latência e precisão simultaneamente), programas em evolução que atingem várias métricas ao mesmo tempo. Contra-intuitivamente, o equilíbrio de vários objetivos pode melhorar uma única métrica de destino, incentivando soluções mais diversas.

Takeaway for Enterprises: Os agentes de produção precisam de pontuadores determinísticos. Se isso é um teste de unidade, simuladores completos ou análise de tráfego canário. Os avaliadores automatizados são sua rede de segurança e seu mecanismo de crescimento. Antes de lançar um projeto Agentic, pergunte: “Temos uma métrica contra a qual o agente pode marcar?”

3. Uso do modelo inteligente, refinamento de código iterativo

O AlphaEvolve aborda todos os problemas de codificação com um ritmo de dois modelos. Primeiro, o Gemini Flash dispara rascunhos rápidos, dando ao sistema um amplo conjunto de idéias para explorar. Em seguida, a Gemini Pro estuda esses rascunhos em mais profundidade e retorna um conjunto menor de candidatos mais fortes. A alimentação de ambos os modelos é um “construtor rápido” leve, um script auxiliar que monta a pergunta que cada modelo vê. Ele combina três tipos de contexto: as tentativas anteriores de código salvas em um banco de dados de projeto, quaisquer corrigências ou regras que a equipe de engenharia tenha escrito e relevante material externo, como trabalhos de pesquisa ou notas de desenvolvedor. Com esse pano de fundo mais rico, o Gêmeos Flash pode andar amplamente enquanto a Gemini Pro Zerói a qualidade.

Ao contrário de muitas demos de agentes que ajustam uma função de cada vez, o AlphaVolve edita repositórios inteiros. Ele descreve cada alteração como um bloco Diff padrão – os mesmos engenheiros de formato de patches pressionam para o GitHub – para que possa tocar dezenas de arquivos sem perder a faixa. Posteriormente, os testes automatizados decidem se o patch é. Sobre os ciclos repetidos, a memória do sucesso e do fracasso do agente cresce, por isso propõe melhores remendos e desperdícios menos computados em becos sem saída.

Takeaway for Enterprises: Deixe os modelos mais baratos e mais rápidos lidarem com o brainstorming e, em seguida, pegue um modelo mais capaz para refinar as melhores idéias. Preserve todas as tentativas em um histórico pesquisável, porque essa memória acelera o trabalho posterior e pode ser reutilizado entre as equipes. Consequentemente, os fornecedores estão correndo para fornecer aos desenvolvedores novas ferramentas em torno de coisas como memória. Produtos como o OpenMemory MCP, que fornece um armazenamento de memória portátil, e as novas APIs de memória de longo e curto prazo no Llamaindex estão tornando esse tipo de contexto persistente quase tão fácil de conectar quanto o log.

O agente de engenharia de software Codex-1 da OpenAI, também lançado hoje, ressalta o mesmo padrão. Ele dispara tarefas paralelas dentro de uma caixa de areia segura, executa testes de unidade e retorna rascunhos de solicitação pull-efetivamente um eco específico para o código do loop mais amplo de pesquisa e avaliação da AlphaEvolve.

4. Medida para gerenciar: direcionar a IA Agentic para ROI demonstrável

As vitórias tangíveis da AlphaEvolve – recuperando 0,7%da capacidade do data center, cortando o tempo de execução do kernel de treinamento de gêmeos 23%, acelerando a flashattion 32%e simplificando o design da TPU – compartilhe uma característica: eles têm como alvo domínios com métricas herméticas.

Para a programação do data center, o AlphaEvolve evoluiu uma heurística que foi avaliada usando um simulador dos data centers do Google com base em cargas de trabalho históricas. Para otimização do kernel, o objetivo era minimizar o tempo de execução real nos aceleradores de TPU em um conjunto de dados de formas de entrada de kernel realistas.

Takeaway for Enterprises: Ao iniciar sua jornada Agentic AI, procure os fluxos de trabalho onde “melhor” é um número quantificável que seu sistema pode calcular – seja latência, custo, taxa de erro ou taxa de transferência. Esse foco permite a implantação de pesquisa automatizada e desdobramentos, porque a saída do agente (geralmente o código legível pelo homem, como no caso da AlphaEvolve) pode ser integrado aos pipelines de revisão e validação existentes.

Essa clareza permite ao agente se auto-melhorar e demonstrar valor inequívoco.

5. Deitando as bases: Pré -requisitos essenciais para o sucesso agêntico corporativo

Embora as realizações da AlphaEvolve sejam inspiradoras, o artigo do Google também é claro sobre seu escopo e requisitos.

A limitação primária é a necessidade de um avaliador automatizado; Atualmente, os problemas que requerem experimentação manual ou feedback de “laboratório úmido” estão fora de escopo para essa abordagem específica. O sistema pode consumir computação significativa-“na ordem de 100 horas de computação para avaliar qualquer nova solução” (papel alfa-evolve, página 8), necessitando de paralelização e planejamento cuidadoso de capacidade.

Antes de alocar orçamento significativo para sistemas agênticos complexos, os líderes técnicos devem fazer perguntas críticas:

  • Problema gradável à máquina? Temos uma métrica clara e automatizável contra a qual o agente pode marcar seu próprio desempenho?
  • Capacidade de computação? Podemos pagar o loop interno potencialmente pesado de geração, avaliação e refinamento, especialmente durante a fase de desenvolvimento e treinamento?
  • CodeBase e prontidão da memória? Sua base de código está estruturada para modificações iterativas e possivelmente baseadas em diff? E você pode implementar os sistemas de memória instrumentada vitais para um agente aprender com sua história evolutiva?

Takeaway for Enterprises: O crescente foco na identidade robusta do agente e gerenciamento de acesso, como visto em plataformas como Frontegg, Auth0 e outros, também aponta para a infraestrutura de amadurecimento necessária para implantar agentes que interagem com segurança com vários sistemas corporativos.

O futuro agêntico é projetado, não apenas convocado

A mensagem da AlphaEvolve para as equipes corporativas é múltipla. Primeiro, seu sistema operacional em torno dos agentes agora é muito mais importante que a inteligência do modelo. O plano do Google mostra três pilares que não podem ser ignorados:

  • Avaliadores determinísticos que dão ao agente uma pontuação inequívoca toda vez que faz uma alteração.
  • Orquestração de longa duração que pode fazer malabarismos com modelos “rascunhos” rápidos como Gemini Flash com modelos mais lentos e rigorosos-seja a pilha do Google ou uma estrutura como o Langgraph de Langchain.
  • Memória persistente para que cada iteração se baseie no último, em vez de reaprender do zero.

As empresas que já possuem registro, chicotes de teste e repositórios de código de versão estão mais próximos do que pensam. A próxima etapa é conectar esses ativos a um loop de avaliação de autoatendimento, para que várias soluções geradas por agentes possam competir e apenas os ships de patch com maior pontuação.

Como o Anurag Dhingra da Cisco, vice -presidente de conectividade e colaboração corporativa, disse a VentureBeat em entrevista nesta semana: “Está acontecendo, é muito, muito real”, disse ele sobre empresas que usam agentes de IA em fabricação, armazéns, contatos de contatos de clientes. “Não é algo no futuro. Está acontecendo lá hoje.” Ele alertou que, à medida que esses agentes se tornam mais difundidos, fazendo “trabalho humano”, a tensão nos sistemas existentes será imensa: “o tráfego da rede vai passar pelo telhado”, disse Dhingra. Sua rede, orçamento e vantagem competitiva provavelmente sentirão essa tensão antes que o ciclo do hype se acalme. Comece a provar um caso de uso contido e orientado por métricas neste trimestre-depois escala o que funciona.

Assista ao podcast de vídeo que fiz com o desenvolvedor Sam Witteveen, onde aprofundamos os agentes de grau de produção, e como o AlphaEvolve está mostrando o caminho:

https://www.youtube.com/watch?v=G5N13JJAing

Subscribe
Notificar de
guest
0 Comentários
Mais antigo
O mais novo Mais Votados
Feedbacks embutidos
Ver todos os comentários

Publicidade

Publicidade