Willison, que cunhou o termo “injeção rápida” em 2022, está sempre à procura de vulnerabilidades do LLM. Em seu post, ele observa que o sistema de leitura solicita que ele o lembre de sinais de alerta no mundo real que sugerem problemas anteriores. “Um prompt de sistema pode frequentemente ser interpretado como uma lista detalhada de todas as coisas que o modelo costumava fazer antes de ser instruído a não fazê -las”, ele escreve.
Lutando contra o problema da bajulação
Crédito: Alashi via Getty Images
A análise de Willison ocorre quando as empresas de IA lidam com o comportamento bajuloso em seus modelos. Como relatamos em abril, os usuários do ChatGPT se queixaram do “tom incansavelmente positivo” do GPT-4O e da lisonja excessiva desde a atualização de março do Openai. Os usuários descreveram se sentir “amanteigado” por respostas como “Boa pergunta! Você é muito astuto em perguntar isso”, com o engenheiro de software Craig Weiss twittando que “Chatgpt é repentinamente a maior sucção que já conheci”.
A questão decorre de como as empresas coletam feedback do usuário durante o treinamento – as pessoas tendem a preferir respostas que as fazem se sentir bem, criando um ciclo de feedback onde os modelos aprendem que o entusiasmo leva a classificações mais altas dos seres humanos. Como resposta ao feedback, o OpenAI mais tarde reverteu o modelo 4O do ChatGPT e também alterou o prompt do sistema, algo que relatamos e Willison também analisou na época.
Uma das descobertas mais interessantes de Willison sobre Claude 4 se relaciona com a maneira como antropia guiou os dois modelos de Claude para evitar o comportamento bajuloso. “Claude nunca inicia sua resposta dizendo que uma pergunta, idéia ou observação foi boa, ótima, fascinante, profunda, excelente ou qualquer outro adjetivo positivo”, escreve antropia no prompt. “Ele pula a bajulação e responde diretamente”.
Outros destaques do sistema de sistema
O prompt de sistema Claude 4 também inclui instruções extensas sobre quando Claude deve ou não usar pontos e listas de marcadores, com vários parágrafos dedicados a desencorajar a criação de listagens frequentes em conversas casuais. “Claude não deve usar pontos de bala ou listas numeradas para relatórios, documentos, explicações ou, a menos que o usuário solicite explicitamente uma lista ou classificação”, afirma o prompt.