Fiz um vídeo de torcida pro Boi com IA porque não tive coragem de gravar minha própria cara gritando "Garantido!"

Luiza CarvalhoPor Luiza Carvalho
Publicado em 6/23/20269 min read
Fiz um vídeo de torcida pro Boi com IA porque não tive coragem de gravar minha própria cara gritando "Garantido!"

Fiz um vídeo de torcida pro Boi com IA porque não tive coragem de gravar minha própria cara gritando "Garantido!"

Bumbódromo visto de cima durante o Festival de Parintins O Bumbódromo de Parintins visto de cima — é aqui que tudo acontece nos dias 26, 27 e 28 de junho.

Essa semana é a semana do Festival de Parintins. Caprichoso abre as três noites, Garantido encerra, e se você mora longe do Amazonas (como eu, em São Paulo) mas é apaixonado pela festa, sabe a sensação: você quer postar alguma coisa de torcida, mas filmar a si mesmo gritando bumbá no quarto de apartamento é meio constrangedor. Eu tentei duas vezes e cortei as duas. Foi aí que lembrei que existe um jeito de fazer um vídeo de torcida sem aparecer — uma foto, um boneco, até um desenho do boi falando ou cantando o toada, com a minha voz ou uma clonada. Resolvi testar isso a sério essa semana e vou contar exatamente como foi.


Veredito rápido

Pra fazer um vídeo curto de torcida — foto do boi, bandeira, camisa do time do coração falando ou cantando uma toada — o FreeLipSync resolve em menos de um minuto, sem marca de água, sem cadastro. Pra quem quer ir além (vídeo mais longo pra postar um resumo da noite, ou clonar a própria voz pra narrar) dá pra evoluir pro plano pago, que ainda é bem mais barato que qualquer concorrente que eu testei.


Por que eu fui atrás disso

Quem acompanha o Festival de Parintins sabe que a torcida não é coisa pra brincadeira. Tem gente que vira garoto-propaganda espontâneo do festival pelo ano inteiro nas redes — postando toada, comentando ensaio, fazendo montagem com a cor do boi. Eu sigo um povo de Manaus no Instagram que faz isso profissionalmente, e reparei que ultimamente apareceram uns vídeos onde a logomarca do boi, ou um boneco, "fala" direto pra câmera cantando um trecho da toada. Não é deepfake de político nem nada estranho — é literalmente pegar uma imagem estática e fazer ela mexer a boca no ritmo do áudio. Resolvi descobrir como isso é feito e se dava pra fazer sem complicação técnica.

Como eu testei (e o que rolou)

Comecei pegando uma imagem do boi (na real, baixei a arte oficial do festival com os dois bois, azul e vermelho, encarados) e um trecho de toada que já tinha salvo do ano passado. Subi a imagem, subi o áudio, esperei. Trinta segundos depois — sem exagero, foi rápido mesmo — tinha um vídeo onde a "boca" do boi sincronizava com a toada. Ficou divertido, meio surreal, mas funcionou pra um story.

Apresentação de boi-bumbá durante o Festival de Parintins Esse nível de produção é o que rola no Bumbódromo — meu vídeo de torcida feito em casa obviamente não chega nem perto, mas a ideia é só fazer minha parte e mostrar apoio.

Depois testei outra coisa: digitei um texto de torcida ("Garantido é Parintins, é o povo, é a alma da ilha...") e deixei a ferramenta gerar a voz e sincronizar com uma foto minha mesmo, sem precisar gravar áudio nenhum. Esse processo de texto-pra-vídeo-falando é o que mais me surpreendeu, porque resolve exatamente o problema que eu tinha: eu não precisei aparecer gravando, só escrevi o que queria "dizer".

A ferramenta que usei: FreeLipSync

Tela inicial do gerador FreeLipSync, com upload de imagem e opções de texto, áudio e clonagem de voz A interface é direta: você sobe a imagem ou vídeo, escolhe texto, áudio gravado ou voz clonada, e gera.

Essa é a parte mais longa do texto de propósito, porque foi nela que passei mais tempo brincando e testando os limites.

O plano gratuito é realmente usável

No plano Free do FreeLipSync você consegue gerar vídeos de até 20 segundos, com até 133 caracteres de roteiro se for usar texto-para-fala, e o detalhe que mais importa pra quem vai postar nos stories: sem marca de água. Isso é raro — a maioria das ferramentas "gratuitas" que testei coloca uma logo gigante no canto, ou um selo no meio do vídeo que mata o clima. Aqui não tem. Dá pra gerar um vídeo por vez, o que é suficiente pra quem só quer postar uma peça pontual pra cada noite do festival.

Vinte segundos parece pouco, mas pra um vídeo de torcida — tipo "Garantido, é hoje a noite é nossa!" — é mais do que suficiente. A maioria dos vídeos de hype que vejo no Instagram tem entre 8 e 15 segundos mesmo.

Velocidade de geração

Esse foi o ponto que mais me agradou. Da hora que subi a imagem e cliquei em gerar até o vídeo ficar pronto pra download, levou pouco menos de 30 segundos no teste com texto curto. Pra quem está postando em tempo real durante uma transmissão ao vivo do festival — tipo reagindo à entrada do boi no Bumbódromo — isso é a diferença entre postar enquanto o assunto ainda tá quente ou postar quando já esfriou.

Clonagem de voz e foto falante

Tem duas funções que valem destacar separadamente:

  • Clonar voz: você grava (ou sobe) uma amostra da sua própria voz, e o sistema usa ela pra narrar o texto que você escrever. Testei gravando 15 segundos falando normal, e o resultado saiu bem próximo do meu jeito de falar — não é perfeito, mas é convincente o suficiente pra um vídeo casual.
  • Foto falante: é a função que usei pra fazer a arte do boi "falar". Não precisa ser rosto humano — funciona com qualquer imagem que tenha algo parecido com uma boca, incluindo desenhos e bonecos. Pra quem quer fazer a mascote ou a bandeira do boi "comentar" a apresentação, é direto ao ponto.

Planos pagos, pra quem quer ir além

Se 20 segundos não bastarem — por exemplo, se você quer narrar um resumo da noite inteira ou fazer um vídeo de recap mais robusto — o plano Starter custa hoje 4,99 dólares por mês (com desconto, o normal é 9,90) e libera vídeos de até 3 minutos, 800 caracteres de roteiro, resolução em HD e até 3 vídeos simultâneos. O plano Pro, por 29,99 dólares por mês (de 69), tira praticamente todos os limites: vídeos de até 60 minutos, roteiro de 16 mil caracteres, fila de renderização prioritária. Pra um cobertura amadora do festival isso é overkill, mas pra quem cria conteúdo de torcida como trabalho — tipo o pessoal de Manaus que citei antes — faz sentido.

Exemplo de vídeo de marca gerado pela ferramenta, mostrado em seis versões de idioma diferentes Um exemplo de vídeo de marca gerado pela ferramenta — a mesma peça em seis idiomas diferentes, mostrando a versatilidade multilíngue.

E os concorrentes?

Dei uma volta rápida em duas outras ferramentas que aparecem quando você procura "fazer foto falar com IA" só pra comparar.

HeyGen é robusto e tem um nível de qualidade de avatar realmente bom, mas é pensado pra empresa — o fluxo de cadastro é mais longo, o plano gratuito é bem mais restrito em minutos totais por mês (não por vídeo), e pra um post pontual de torcida ele é over-engineered. Você sente que está usando uma ferramenta de treinamento corporativo pra fazer o boi falar, e isso trava o processo.

D-ID tem uma proposta parecida (foto + áudio = vídeo falando), mas na minha experiência o plano gratuito é mais um trial por tempo limitado do que um "tier" permanente — depois de alguns créditos, ele pede assinatura. Pra um teste pontual durante a semana do festival, isso significa que você meio que "queima" a cota rápido se for postar peça por noite.

Nenhum dos dois me pareceu pior tecnicamente — só mais lento de configurar e menos generoso no que dão de graça pra sempre.

Para quem é cada ferramenta

  • FreeLipSync: quem quer postar uma ou duas peças de torcida curtas e rápidas durante os dias de festival, sem complicação, sem marca de água, sem se cadastrar antes de testar.
  • HeyGen: quem já produz conteúdo institucional ou de marca regularmente e precisa de um avatar consistente em vários vídeos por mês.
  • D-ID: quem quer testar a tecnologia rapidamente pra um projeto único, mas já sabe que vai pagar se gostar.

Fechando

No fim das contas, o vídeo que mais rendeu visualização nos meus stories essa semana foi o mais simples: a arte do Boi Garantido "cantando" um trecho de toada de 12 segundos. Não precisei aparecer, não precisei editar nada em outro programa, e ainda ficou com uma cara mais profissional do que eu esperava pra uma ferramenta gratuita. Se você também é torcedor de longe e quer fazer sua parte de hype pro Festival de Parintins sem se filmar, vale testar — é rápido o suficiente pra fazer durante a transmissão ao vivo mesmo.

Quem quiser testar, é só entrar em https://freelipsync.com, subir uma imagem e ver quanto tempo leva. Garantido ou Caprichoso, a torcida que continue.


Fontes