Как создавать бесплатные видео с липсинкингом (Lip-Sync) с помощью OpenClaw: Пошаговое руководство
Ищете способ создавать реалистичные говорящие аватары и видео с липсинкингом, не тратя при этом целое состояние? OpenClaw, фреймворк автономных ИИ-агентов с открытым исходным кодом, сделал это возможным благодаря своей мощной экосистеме. Используя навык Flyworks Avatar Video, доступный в ClawHub, вы можете превращать фотографии в говорящие видео и даже клонировать свой голос совершенно бесплатно!
В этом руководстве мы пройдем весь процесс настройки и использования OpenClaw для создания потрясающих видеороликов с синхронизацией губ.
Понимание рабочего процесса
Для создания видео с липсинкингом по сути требуются три важнейших компонента: ИИ-агент (OpenClaw), навык генерации аватаров/видео и ваша креативность.

Навык Flyworks Avatar Video привносит мощные возможности прямо в вашего агента:
- Говорящие фото (Talking Photos): Мгновенно превращайте любое статичное изображение в говорящее видео.
- Публичные аватары: Используйте высокореалистичные готовые аватары с продвинутой технологией синтеза речи (TTS).
- Клонирование голоса: Клонируйте конкретный голос из короткого аудиосэмпла.
Давайте приступим к настройке!
Шаг 1: Установка навыка
Сначала вам нужно установить навык Flyworks Avatar Video в среду вашего агента. ClawHub делает это невероятно простым с помощью интерфейса командной строки skills.

Откройте терминал и выполните следующую команду, чтобы добавить навык:
# Установить глобально
npx skills add Flyworks-AI/skills -g
Примечание: Вы можете использовать этот навык вместе с Claude Code, Cursor, Codex и другими поддерживаемыми ИИ-агентами.
Далее установите зависимости Python, необходимые для взаимодействия с API генерации видео:
pip install -r requirements.txt
Попробуйте с демо-токеном
По умолчанию этот навык поставляется с демо-токеном бесплатного уровня. Обратите внимание, что демо-токен добавляет водяной знак на ваши видео и ограничивает их максимальную длину 30 секундами. Чтобы убрать эти ограничения, вы можете зарегистрироваться и получить свой собственный API-ключ на сайте flyworks.ai/setting, а затем установить его с помощью команды export HIFLY_API_TOKEN="ваш_токен".
Шаг 2: Создание говорящего фото (Липсинкинг)
Функция «Говорящее фото» — это то, где происходит магия! Вы можете взять статичную фотографию себя или персонажа и предоставить аудио или текстовый сценарий. ИИ проанализирует изображение и анимирует рот, чтобы он идеально синхронизировался с вашим аудио.

Вы можете попросить OpenClaw сделать это напрямую, используя промпт на естественном языке:
"Создай видео из моей фотографии, где я говорю 'Добро пожаловать в наш сервис'"
Или используйте предоставленный клиентский скрипт напрямую:
# Подготовка говорящего фото
python scripts/hifly_client.py create_talking_photo \
--image assets/my_photo.png \
--title "Мой Аватар"
Эта команда выдаст вам пользовательский Avatar ID, который вы затем сможете сохранить в память и повторно использовать для любых будущих видео!
Шаг 3: Даем голос вашему аватару
Видео с липсинкингом хорошо ровно настолько, насколько хорош голос за ним! Хотя в навыке "из коробки" предлагается множество публичных TTS-голосов (list_public_voices), вам может понадобиться что-то по-настоящему уникальное — например, ваш собственный голос.
Клонирование пользовательского голоса

Вы можете клонировать голос, просто предоставив аудиофайл с образцом. Снова дайте инструкцию вашему агенту:
"Клонируй мой голос из этого аудиофайла и сгенерируй приветственное видео, используя мой пользовательский аватар."
Под капотом это выполняет процесс клонирования:
python scripts/hifly_client.py clone_voice \
--audio assets/my_voice_sample.MP3 \
--title "Мой Клонированный Голос"
Шаг 4: Сгенерируйте финальное видео с липсинкингом
Теперь, когда у вас есть аватар ("говорящее фото") и готовый голос, вы просто соединяете их вместе.
Выполните команду создания, передав текст, ID вашего пользовательского аватара и выбранный вами голос:
python scripts/hifly_client.py create_video \
--type tts \
--text "Всем привет! Все это видео с липсинкингом было сгенерировано бесплатно с помощью OpenClaw и навыка Flyworks Avatar Video. Круто, правда?" \
--avatar my_custom_avatar_id \
--voice my_cloned_voice_id
Скрипт управляет рабочим процессом генерации видео в фоновом режиме. Подождите несколько секунд, и финальное анимированное видео MP4 с идеальной синхронизацией губ будет успешно создано!
Заключение
Создание впечатляющих, высококачественных говорящих цифровых аватаров никогда не было таким простым и доступным. Объединив фреймворк ИИ-агентов OpenClaw с бесплатным навыком Flyworks Avatar Video, разработчики и авторы контента теперь могут легко автоматизировать производство липсинк-роликов.
Изучите другие доступные навыки ClawHub здесь, чтобы узнать, какие еще потрясающие возможности вы можете открыть!
