Na terça -feira, o Google lançou o Veo 3, um novo modelo de síntese de vídeo de IA que pode fazer algo que nenhum gerador de vídeo de IA principal conseguiu fazer antes: criar uma faixa de áudio sincronizada. Enquanto de 2022 a 2024, vimos as primeiras etapas da geração de vídeo de IA, cada vídeo era silencioso e geralmente muito curto. Agora você pode ouvir vozes, diálogo e efeitos sonoros em videoclipes de alta definição de oito segundos.
Logo após o novo lançamento, as pessoas começaram a fazer a pergunta mais óbvia de benchmarking: quão bom é o Veo 3 no ator fingido do Oscar Will Smith em comer espaguete?
Primeiro, uma breve recapitulação. O benchmark de espaguete no vídeo de IA traça suas origens de volta a março de 2023, quando cobrimos um exemplo inicial de vídeo horrível gerado pela IA usando um modelo de síntese de vídeo de código aberto chamado ModelsCope. O exemplo de espaguete mais tarde se tornou conhecido o suficiente para que Smith parodiou quase um ano depois em fevereiro de 2024.
Aqui está como parecia o vídeo viral original:
Uma coisa que as pessoas esquecem é que, na época, o exemplo de Smith não era o melhor gerador de vídeo de IA por aí-um modelo de síntese de vídeo chamado Gen-2 da pista já havia alcançado resultados superiores (embora ainda não estivesse acessível ao público). Mas o resultado do ModelsCope foi engraçado e estranho o suficiente para manter as memórias das pessoas como um exemplo pobre de síntese de vídeo, útil para comparações futuras à medida que os modelos de IA progrediram.
O desenvolvedor de aplicativos da AI, Javi Lopez, veio ao resgate para os curiosos fãs de espaguete no início desta semana com o VEO 3, realizando o teste de Smith e publicando os resultados em X. Mas, como você notará abaixo quando assistir, a trilha sonora tem uma qualidade curiosa: o Faux Smith parece estar enlouquecendo o spaghetti.
Em X, Javi Lopez correu “Will Smith comendo espaguete” no gerador de vídeo VEO 3 AI do Google e recebeu esse resultado.
É uma falha na capacidade experimental do VEO 3 de aplicar efeitos sonoros ao vídeo, provavelmente porque os dados de treinamento usados para criar os modelos de IA do Google apresentavam muitos exemplos de bocas de mascar com efeitos sonoros de trituração. Os modelos generativos de IA são máquinas de previsão de correspondência de padrões e precisam ser mostrados exemplos suficientes de vários tipos de mídia para gerar novas saídas convincentes. Se um conceito estiver super-representado ou sub-representado nos dados de treinamento, você verá resultados de geração incomum, como Jabberwockies.