Cómo crear vídeos con sincronización labial gratis usando OpenClaw: Guía paso a paso
¿Buscas crear avatares que hablan y vídeos con sincronización labial realista sin gastar dinero? OpenClaw, el framework de agentes de IA autónomos de código abierto, lo ha hecho posible a través de su potente ecosistema. Utilizando el Skill Flyworks Avatar Video disponible en ClawHub, ¡puedes transformar fotos en vídeos parlantes e incluso clonar tu voz de forma totalmente gratuita!
En este tutorial, te guiaremos por todo el proceso de configuración y utilización de OpenClaw para crear impresionantes vídeos de sincronización labial.
Entendiendo el flujo de trabajo
La creación de un vídeo de sincronización labial (lip-sync) requiere fundamentalmente tres componentes: un agente de IA (OpenClaw), un Skill de generación de Avatar/Vídeo, y tu creatividad.

El skill Flyworks Avatar Video aporta capacidades muy potentes directamente a tu agente:
- Fotos que hablan (Talking Photos): Convierte instantáneamente cualquier imagen estática en un vídeo.
- Avatares públicos: Utiliza avatares prefabricados muy realistas con un avanzado sistema de texto a voz (TTS).
- Clonación de voz: Clona una voz específica a partir de una breve muestra de audio.
¡Vamos a prepararlo todo!
Paso 1: Instalación del Skill
Primero, necesitas instalar el skill Flyworks Avatar Video en tu entorno agente. ClawHub lo hace increíblemente fácil mediante su CLI skills.

Abre tu terminal y ejecuta el siguiente comando para añadir el skill:
# Instalación global
npx skills add Flyworks-AI/skills -g
Nota: Puedes usar este skill junto con Claude Code, Cursor, Codex, y otros agentes de IA soportados.
A continuación, instala las dependencias de Python necesarias para interactuar con la API de generación de vídeo:
pip install -r requirements.txt
Pruébalo con el Token de demostración
Por defecto, el skill viene con un token demo de nivel gratuito. Ten en cuenta que este token aplicará una marca de agua a tus vídeos y los limitará a una duración máxima de 30 segundos. Para eliminar estas limitaciones, puedes registrarte para obtener tu propia clave API en flyworks.ai/setting y configurarla mediante export HIFLY_API_TOKEN="tu_token_aqui".
Paso 2: Crear una "Foto que habla"
El modo "Talking Photo" es donde ocurre la magia. Puedes tomar una fotografía plana de ti mismo o de un personaje, y proporcionar un audio o guion de texto. La IA analizará la imagen y animará la boca para sincronizarla perfectamente con tu audio.

Puedes pedir a OpenClaw que realice esto directamente usando lenguaje natural en tu prompt:
"Crea un vídeo a partir de mi foto donde diga 'Bienvenidos a nuestro servicio'"
O usa el script de cliente proporcionado directamente en la consola:
# Preparar la imagen base (Avatar)
python scripts/hifly_client.py create_talking_photo \
--image assets/my_photo.png \
--title "My Avatar"
¡Este comando te devuelve un ID de Avatar personalizado que puedes guardar y reutilizar en vídeos futuros!
Paso 3: Ponerle voz a tu Avatar
¡Un vídeo de este tipo sólo es tan bueno como la voz que hay detrás de él! Aunque el skill ofrece de serie muchas voces TTS públicas (comprueba list_public_voices), es posible que quieras algo verdaderamente único: tu propia voz.
Clonar una voz personalizada

Puedes realizar la clonación simplemente importando un archivo de audio de muestra. De nuevo, indícaselo a tu agente:
"Clona mi voz a partir de este archivo de audio y genera un vídeo de bienvenida usando mi avatar."
En un nivel básico, esto es lo que está ejecutando el proceso de clonado:
python scripts/hifly_client.py clone_voice \
--audio assets/my_voice_sample.MP3 \
--title "My Cloned Voice"
Paso 4: Generar el vídeo de sincronización final
Ahora que tienes tu avatar ("foto") y tu voz preparados, ¡solo tienes que juntarlos!
Ejecuta el comando de creación, pasándole el texto que desees, el ID de tu avatar personalizado, y el ID de tu voz escogida:
python scripts/hifly_client.py create_video \
--type tts \
--text "¡Hola a todos! Este vídeo se generó gratuitamente utilizando OpenClaw y el skill Flyworks Avatar Video. ¿A que es genial?" \
--avatar mon_id_avatar \
--voice mon_id_voz_clonada
El script gestiona en segundo plano el flujo de todos los procesos. ¡Espera unos instantes y se generará exitosamente el vídeo MP4 animado final con perfecta sincronización en los labios!
Conclusión
Crear avatares digitales que hablen con gran calidad y realismo nunca había sido tan fácil ni tan accesible. Combinando la flexibilidad del ecosistema autónomo de OpenClaw con el Skill Flyworks Avatar Video, los desarrolladores y creadores pueden ahora automatizar la producción de contenido fácilmente y sin coste.
Explora el resto del catálogo de Skills directamente en ClawHub ¡y descubre cuántas cosas más puedes automatizar!
