Na quinta-feira, o OpenAI lançou o ChatGPT Agent, um novo recurso que permite que o assistente de AI da empresa complete as tarefas de várias etapas, controlando seu próprio navegador da web. A atualização mescla recursos da ferramenta de operador anterior do OpenAI e do recurso de pesquisa profunda, permitindo que o ChatGPT navegue sites, execute código e crie documentos enquanto os usuários mantêm o controle sobre o processo.
O recurso marca a mais recente entrada do OpenAI sobre o que a indústria de tecnologia chama de “Agentic AI”-sistemas que podem tomar ações de várias etapas autônomas em nome do usuário. O OpenAI diz que os usuários podem pedir ao agente que lide com solicitações, como montar e comprar uma roupa de roupas para uma ocasião específica, criando decks de slides do PowerPoint, planejando refeições ou atualização de planilhas financeiras com novos dados.
O sistema usa uma combinação de navegadores da Web, acesso ao terminal e conexões de API para concluir essas tarefas, incluindo “conectores chatgpt” que se integram a aplicativos como Gmail e Github.
Enquanto usam o agente, os usuários assistem a uma janela dentro da interface ChatGPT que mostra todas as ações da IA que estão ocorrendo dentro de sua própria caixa de areia privada. Esta sandbox apresenta seu próprio sistema operacional virtual e navegador da web com acesso à Internet real; Não controla seu dispositivo pessoal. “O ChatGPT realiza essas tarefas usando seu próprio computador virtual”, escreve o OpenAi, “mudando fluidamente entre raciocínio e ação para lidar com fluxos de trabalho complexos do início ao fim, tudo com base em suas instruções”.
Uma imagem estática de um vídeo de demonstração promocional do OpenAi Chatgpt, mostrando o agente da IA que procura voos.
Credit:
OpenAI
Como o operador antes dele, o recurso do agente requer permissão do usuário antes de tomar determinadas ações com consequências do mundo real, como fazer compras. Os usuários podem interromper as tarefas a qualquer momento, assumir o controle do navegador ou interromper completamente as operações. O sistema também inclui um “modo de relógio” para tarefas como o envio de e -mails que exigem supervisão ativa do usuário.
Como o agente supera o operador em capacidade, o OpenAI diz que o site de visualização anterior da operadora da empresa permanecerá funcional por mais algumas semanas antes de ser fechado.
Reivindicações de desempenho
As reivindicações da OpenAI são uma coisa, mas o quão bem o novo agente da IA da empresa realmente concluirá as tarefas de várias etapas, dependendo muito da situação. Isso ocorre porque o modelo de IA não é uma forma completa de inteligência de solução de problemas, mas um imitador mestre complexo. Tem alguma flexibilidade para reunir um cenário, mas também muitos pontos cegos. O OpenAI treinou o agente (e seus componentes constituintes) usando exemplos de uso de computador e uso de ferramentas; O que quer que cair dos exemplos absorvidos pelos dados de treinamento provavelmente ainda será difícil de realizar.