Apenas um ano após a explosão inicial de interesse na geração de vídeos da IA, o cenário competitivo está passando por uma transformação significativa. O foco está mudando de simplesmente alcançar os recursos de geração de vídeo para o desafio crítico de demonstrar lucratividade. Essa evolução parece estar corroendo o status dominante aparentemente inatacável da Sora de Openai, como uma onda de novos participantes desde 2024, disputa uma fatia do crescente mercado.
Está a fase de “compartilhamento de bolos” em andamento em Ai Geração de vídeo?
O lançamento do Sora de Openai em fevereiro de 2024 acendeu um frenesi no setor de geração de vídeos da IA. Startups domésticas e grandes empresas de tecnologia na China e em outros lugares entraram rapidamente na briga. Muitos desses novos modelos e produtos se aproximaram rapidamente e, em alguns casos, superaram, Sora em termos de comprimento de vídeo, qualidade e eficiência, levando a perguntas sobre seu domínio contínuo.
De acordo com uma recente lista de aplicativos de 100 principais aplicativos da A16Z, as ferramentas de geração de vídeo da IA fizeram avanços significativos na qualidade e na controlabilidade nos últimos seis meses. Notavelmente, o relatório sugere que essas ferramentas têm um maior potencial de monetização do usuário em comparação com outros produtos de IA generativos mais empolgados.
A análise A16Z indica ainda que os aplicativos mais populares não geram necessariamente mais receita. As ferramentas focadas na edição de imagens/vídeo, aprimoramento visual, imitações “ChatGPT” e geração de imagens/vídeo estão vendo uma receita mais alta, apesar dos casos de uso potencialmente mais estreitos.
Curiosamente, três aplicativos de geração de vídeo de IA-Hailuoai, Kling e Sora-fizeram sua estréia na versão baseada na Web da lista A16Z. Os dados até janeiro de 2025 mostraram que Hailuo e Kling haviam ultrapassado o Sora no tráfego de usuários.
As estratégias de monetização empregadas por essas ferramentas de geração de vídeo de IA são amplamente semelhantes, abrangendo modelos de pagamento conforme o uso, serviços de assinatura, versões básicas gratuitas com recursos premium, personalização corporativa e combinações dessas abordagens.
Um potencial ponto de virada na mudança para priorizar a lucratividade foi o recente ajuste da OpenAI à estratégia de preços de Sora no final de março de 2025. A empresa removeu os limites de crédito para usuários pagos, permitindo que os assinantes Plus e Pro gerassem um número ilimitado de vídeos. No entanto, essa mudança não ressoou universalmente com os usuários.
Inúmeros usuários em plataformas como X e Reddit expressaram que, apesar da remoção de restrições de crédito, eles não estão inclinados a usar o SORA. Muitos indicaram uma preferência por alternativas superiores percebidas, como o VEO 2 do Google ou o WAN2.1 de código aberto. Alguns usuários também apontaram que a decisão do OpenAI de elevar os limites de crédito pode ser devido à falta de adoção do usuário e expressou decepção por o Sora ajustado ainda não não ser um produto final completo. Esse sentimento ecoa as críticas anteriores após o lançamento inicial de Sora em dezembro de 2024, onde teria recebido feedback negativo sobre sua qualidade de geração de vídeo.
Em meio a esse cenário em evolução, quando os usuários discutem modelos e produtos de geração de vídeos, eles estão mais dispostos a usar ou pagar, nomes como a EMU do Meta, o Veo 2 do Google, o WAN 2.1 do Alibaba e o Kling 1.6 do Kuaishou são mencionados com frequência. Esses modelos estão alcançando e, em alguns aspectos, excedendo, Sora em termos de qualidade de geração e recursos de comprimento de vídeo.
Como Ai Os jogadores de geração de vídeos estão monetizando suas ofertas
Após o aumento da popularidade da geração de vídeos da IA, os primeiros participantes estão agora aproveitando as vantagens e recursos exclusivos de seus produtos para atrair usuários pagantes, incluindo criadores individuais, estúdios de publicidade, blogueiros de comércio eletrônico e profissionais nas indústrias de cinema e televisão.
Enquanto Sora do Openai era inicialmente líder na geração de vídeos de alta definição de 60 segundos, isso não é mais uma vantagem única. Vários concorrentes corresponderam ou até superaram a Sora em duração de vídeo, clareza e qualidade visual. A página de preços da Sora indica que os usuários mais podem gerar vídeos de 10 segundos, enquanto os usuários do Pro podem gerar vídeos de 20 segundos (com a possibilidade de extensão). Por outro lado, modelos mais novos como o Ray2 e o Vidu da Luma podem gerar vídeos de alta definição de um minuto, e o Kling 1.6 de Kuaishou pode gerar clipes de 5 ou 10 segundos que podem ser estendidos até dois minutos.
Funcionalmente, os modelos e produtos populares de geração de vídeos atualmente oferecem recursos como texto em vídeo, imagem para vídeo, edição de vídeo em tempo real e adição automática de efeitos sonoros. Além disso, muitos estão incorporando novos recursos com base em necessidades de aplicativos específicas em suas atualizações.
Além dos recursos básicos, como comprimento e resolução do vídeo, a iteração contínua da geração de vídeos de IA está focada em aspectos cruciais para indústrias como filmes e publicidade, incluindo controle preciso de texto, retrato de personagem consistente, personalização de estilo e até controle sobre diferentes ângulos e perspectivas da câmera.
Algumas empresas também estão se concentrando em aprimorar a escalabilidade e a adaptabilidade de seus produtos para se adequar a projetos de vídeo de tamanhos e complexidades variados, suportar diversos formatos e resoluções de vídeo e integrar -se a outras ferramentas e plataformas para atender a uma ampla gama de cenários de aplicativos.
Para aumentar a receita, algumas empresas também estão empregando estratégias técnicas para reduzir o desenvolvimento e os custos computacionais associados aos seus modelos de geração de vídeo, aumentando assim as margens de lucro. Isso inclui a melhoria da arquitetura do modelo e a adoção de algoritmos mais eficientes para melhorar a eficiência operacional e reduzir o consumo de recursos computacionais durante a geração de vídeo. Por exemplo, o modelo de vídeo hunyuan de Tencent reduziu o consumo computacional em 80% por meio de técnicas de escala. Além disso, equipes de pesquisa da Universidade de Pequim, Kuaishou e Pequim da Universidade de Posts e Telecomunicações propuseram o método de correspondência de fluxo piramidal para reduzir o processamento necessário para o treinamento de geradores de vídeo, reduzindo a redução e diminuição progressivamente de amostragem durante o treinamento, reduzindo os custos computacionais. Além disso, o recém-de-código aberto SARA 2.0 por reivindicações de AI colossal para obter desempenho de grau comercial com um modelo de parâmetros 11b treinado por US $ 200.000 (usando 224 GPUs), rivalizando com modelos como HunyuanVideo e o voceo de parâmetros 30B.
Áreas para melhoria nos modelos de geração de vídeo
Os modelos e produtos emergentes de startups nacionais e internacionais, unicórnios e gigantes da Internet já estão impactando os criadores de conteúdo em indústrias como publicidade e entretenimento. Enquanto alguns produtos estão começando a gerar receita para as empresas, os modelos atuais de geração de vídeo ainda enfrentam limitações significativas.
Você Yang, o fundador da Colossal-AI, compartilhou recentemente suas opiniões sobre o desenvolvimento futuro de modelos de geração de vídeo, enfatizando a necessidade de recursos como controle preciso de texto, ângulos de câmera arbitrários, retrato consistente de personagens e personalização de estilo. Ele observou que, embora os aplicativos atuais de texto para imagem não tenham controle preciso completo, os modelos futuros de geração de vídeos têm potencial significativo na tradução de descrições textuais com precisão em forma de vídeo. Ele também destacou a importância dos grandes modelos de vídeo de IA, sendo capazes de ajustar livremente os ângulos e posições da câmera, semelhantes às filmagens do mundo real, e manter a aparência consistente de personagens em diferentes fotos e cenas, o que é crucial para publicidade e produção de filmes.
Dada a necessidade contínua de melhoria, pesquisadores de empresas e universidades estão explorando e propor continuamente novos métodos. Pesquisadores da Universidade de Tsinghua e Tencent propuseram recentemente o “Video-T1”, inspirado na aplicação do escala de tempo de teste no LLMS, explorando seu potencial nos modelos de geração de vídeo. Seus quadros de trabalho, escala no tempo de teste na geração de vídeo como um problema de pesquisa de trajetória do espaço de ruído gaussiano para a distribuição de vídeo de destino e apresenta a pesquisa linear aleatória como uma implementação básica. Ao amostrar aleatoriamente várias gerações de vídeo e usando um VLM para pontuação, a melhor amostra é selecionada como saída. Eles também propuseram o método da árvore de quadros (TOF), que expande e remove adaptivamente as ramificações de vídeo para equilibrar dinamicamente a qualidade do custo computacional e a geração, melhorando a velocidade de pesquisa e a qualidade do vídeo. O TOF usa um verificador de tempo de teste para avaliar os resultados intermediários e emprega heurísticas para navegar com eficiência no espaço de pesquisa, avaliando os pontos apropriados do processo de geração de vídeo para selecionar trajetórias de geração promissora, aumentando assim a eficiência e a qualidade. Os pesquisadores observaram que o primeiro quadro afeta significativamente o alinhamento geral de vídeo e que diferentes partes do vídeo (começo, meio, final) têm necessidades rápidas de alinhamento imediato. Para abordar isso, eles utilizaram a cadeia de pensamento para geração de imagens de quadro único e solicitação hierárquica para aprimorar a geração de quadros e pronta o alinhamento, construindo o processo geral da árvore dos quadros. O modelo de vídeo-T1 treinado com o TOF alcançou um aumento de 5,86% na referência do VBEnch, com a capacidade do modelo aumentando com o número de amostras selecionadas durante a inferência, demonstrando potencial de escala contínua.
Pesquisadores da Kuaishou Technology e da Universidade Chinesa de Hong Kong propuseram o método Fulldit em março de 2025, que integra condições de várias tarefas (como transferência de identidade, mapeamento de profundidade e movimento da câmera) em modelos de geração de vídeo treinados, permitindo aos usuários um controle mais granular sobre o processo de geração de vídeo. O Fulldit integra mecanismos do tipo Controlnet diretamente no treinamento de modelos de geração de vídeo, unificando condições de várias tarefas em um único modelo treinado. Emprega um mecanismo de atenção unificado para capturar as relações espaço-temporais em diferentes condições, convertendo todas as entradas da condição (texto, movimento da câmera, identidade e profundidade) em um formato de token unificado e processando-os através de uma série de camadas de transformadores com auto-estima. O treinamento da Fulldit depende de conjuntos de dados marcado sob medida para cada tipo de condição e usa um processo de treinamento progressivo, introduzindo condições mais desafiadoras no início do treinamento. Os testes mostraram que o Fulldit alcançou o desempenho de última geração em métricas relacionadas ao texto, movimento da câmera, identidade e controle de profundidade, geralmente superando outros métodos nas métricas gerais de qualidade, embora sua suavidade tenha sido ligeiramente menor que o conceito.
Esse ambiente dinâmico ressalta a intensa concorrência e a rápida inovação no setor de geração de vídeos da IA, à medida que os jogadores se concentram cada vez mais na construção de negócios sustentáveis e lucrativos, continuando a ultrapassar os limites da tecnologia de geração de vídeo.
Assim:
Como Carregando…