Mas se você não estiver intimamente familiarizado com a indústria da IA e os direitos autorais, pode se perguntar: por que uma empresa gastaria milhões de dólares em livros para destruí -los? Por trás dessas manobras legais estranhas reside um impulsionador mais fundamental: a fome insaciável da indústria de IA por texto de alta qualidade.
A corrida para dados de treinamento de alta qualidade
Para entender por que o Antrópico gostaria de digitalizar milhões de livros, é importante saber que os pesquisadores da IA criam modelos de idiomas grandes (LLMs) como aqueles que podem chatgpt e claude alimentando bilhões de palavras em uma rede neural. Durante o treinamento, o sistema de IA processa o texto repetidamente, construindo relações estatísticas entre palavras e conceitos no processo.
A qualidade dos dados de treinamento alimentados na rede neural afeta diretamente os recursos do modelo de IA resultantes. Modelos treinados em livros e artigos bem editados tendem a produzir respostas mais coerentes e precisas do que aquelas treinadas em texto de baixa qualidade, como comentários aleatórios do YouTube.
Os editores controlam legalmente o conteúdo que as empresas de IA desejam desesperadamente, mas as empresas de IA nem sempre querem negociar uma licença. A doutrina de primeira venda ofereceu uma solução alternativa: depois de comprar um livro físico, você pode fazer o que deseja com essa cópia-incluindo destruí-la. Isso significava que a compra de livros físicos ofereceu uma solução legal.
E, no entanto, comprar coisas é caro, mesmo que seja legal. Assim como muitas empresas de IA antes dela, o Antrópico escolheu inicialmente o caminho rápido e fácil. Na busca por dados de treinamento de alta qualidade, os estados de arquivamento do tribunal, o antropal optou por acumular versões digitalizadas de livros piratas para evitar o que o CEO Dario Amodei chamou de “Slogute Legal/Prática/Negócios”-as complexas negociações de licenciamento com os editores. Mas, em 2024, o antropic se tornara “não é tão bombado sobre” usar e -books pirateados “por razões legais” e precisava de uma fonte mais segura.