OpenClawで無料のリップシンク動画を作成する方法：ステップバイステップガイド

高額な費用をかけずに、リアルに喋るアバターやリップシンク動画を作成したいとお考えですか？オープンソースの自律型AIエージェントフレームワークであるOpenClawは、その強力なエコシステムによってこれを可能にしました。ClawHubで利用可能なFlyworks Avatar Videoスキルを使用すれば、写真を喋る動画に変換し、さらには自分の声を完全に無料でクローンすることさえできます！

このチュートリアルでは、OpenClawのセットアップからリップシンク動画を作成するまでの全プロセスをご案内します。

ワークフローの理解

リップシンク動画を作成するには、基本的に3つの重要なコンポーネントが必要です。AIエージェント（OpenClaw）、アバター/動画生成スキル、そしてあなたの創造性です。

ワークフローのインフォグラフィック

Flyworks Avatar Videoスキルは、エージェントに強力な機能を直接もたらします。

喋る写真 (Talking Photos): 任意の静止画像を瞬時に喋る動画に変換します。
パブリックアバター: 高度なテキスト読み上げ（TTS）を備えた非常にリアルな高品質アバターを利用できます。
音声クローン: 短い音声サンプルから特定の声をクローンします。

それでは、セットアップを始めましょう！

ステップ1：スキルのインストール

まず、お使いのエージェント環境にFlyworks Avatar Videoスキルをインストールする必要があります。ClawHubでは、skills CLIを使ってこれを非常に簡単に実行できます。

ターミナルでのインストール

ターミナルを開き、以下のコマンドを実行してスキルを追加します。

# グローバルにインストール
npx skills add Flyworks-AI/skills -g

注: このスキルは、Claude Code、Cursor、Codex、およびその他のサポートされているAIエージェントと一緒に使用できます。

次に、動画生成APIとの連携に必要なPythonの依存関係をインストールします。

pip install -r requirements.txt

デモトークンで試す

デフォルトでは、このスキルには無料枠のデモトークンが付属しています。デモトークンを使用すると、動画に透かし（ウォーターマーク）が入り、最大30秒に制限されることに注意してください。これらの制限を解除するには、flyworks.ai/setting で独自のAPIキーを登録し、export HIFLY_API_TOKEN="your_token_here" で環境変数として設定してください。

ステップ2：喋る写真（リップシンク）の作成

「喋る写真」機能こそが魔法の始まりです！自分自身やキャラクターの静止画を用意し、音声やテキストのスクリプトを提供します。AIが画像を解析し、音声と完全にリップシンクするように口の動きをアニメーション化します。

喋る写真デモ

自然言語のプロンプトを使用して、OpenClawに直接これを実行するように指示することができます。

"「私たちのサービスへようこそ」と言っている私の写真から、喋る動画を作成して"

または、提供されているクライアントスクリプトを直接使用します。

# 喋る写真を準備する
python scripts/hifly_client.py create_talking_photo \
    --image assets/my_photo.png \
    --title "My Avatar"

このコマンドを実行するとカスタムAvatar IDが取得でき、これをメモリに保存して、今後の動画で再利用できます！

ステップ3：アバターに声を与える

リップシンク動画の良さは、その声に左右されます！このスキルにはすぐに使える多くのパブリックTTS音声（list_public_voices）が用意されていますが、あなたご自身の声など、真に独自のものが必要になる場合があります。

カスタム音声のクローン

音声クローンのイラスト

サンプル音声ファイルを提供するだけで、声をクローンできます。ここでも、エージェントに次のように指示します。

"この音声ファイルから私の声をクローンし、マイアバターを使って挨拶動画を生成して"

内部では、以下のクローン作成プロセスが実行されます。

python scripts/hifly_client.py clone_voice \
    --audio assets/my_voice_sample.MP3 \
    --title "My Cloned Voice"

ステップ4：最後のリップシンク動画を生成する

これでアバター（「喋る写真」）と音声が揃ったので、あとはそれらを組み合わせるだけです。

生成コマンドを実行し、テキスト、カスタムアバターID、選択した音声を渡します。

python scripts/hifly_client.py create_video \
    --type tts \
    --text "皆さん、こんにちは！このリップシンク動画はすべて、OpenClawとFlyworks Avatar Videoスキルを使って無料で生成されました。すごいですよね？" \
    --avatar my_custom_avatar_id \
    --voice my_cloned_voice_id

スクリプトがバックグラウンドで動画生成のワークフローを管理します。しばらく待つと、完璧なリップシンクを備えた最終的なアニメーションMP4動画が正常に生成されます！

おわりに

印象的で高品質な喋るデジタルアバターの作成は、かつてないほど簡単でアクセスしやすくなりました。OpenClaw AIエージェントフレームワークと無料のFlyworks Avatar Videoスキルを組み合わせることで、開発者やクリエイターはリップシンクコンテンツの制作を簡単に自動化できるようになりました。

こちらから利用可能なClawHubのスキルを探索して、他にどんな素晴らしい機能がアンロックできるか試してみてください！