OpenClaw का उपयोग करके मुफ्त लिप-सिंक (Lip-Sync) वीडियो कैसे बनाएं: चरण-दर-चरण मार्गदर्शिका

क्या आप बहुत सारा पैसा खर्च किए बिना यथार्थवादी बात करने वाले अवतार और लिप-सिंक वीडियो बनाना चाहते हैं? OpenClaw, जो एक ओपन-सोर्स ऑटोनॉमस एआई (AI) एजेंट फ्रेमवर्क है, ने अपने शक्तिशाली इकोसिस्टम के माध्यम से इसे संभव बना दिया है। ClawHub पर उपलब्ध फ़्लाईवर्क्स अवतार वीडियो स्किल (Flyworks Avatar Video Skill) का उपयोग करके, आप तस्वीरों को बात करने वाले वीडियो में बदल सकते हैं और यहाँ तक कि अपनी आवाज़ की भी पूरी तरह से मुफ्त क्लोनिंग कर सकते हैं!

इस ट्यूटोरियल में, हम आपको OpenClaw सेट करने और शानदार लिप-सिंक वीडियो बनाने के पूरे प्रोसेस के बारे में बताएंगे।

वर्कफ़्लो को समझना

लिप-सिंक वीडियो बनाने के लिए मूल रूप से तीन महत्वपूर्ण घटकों की आवश्यकता होती है: एक AI एजेंट (OpenClaw), एक अवतार/वीडियो जनरेशन स्किल, और आपकी रचनात्मकता।

वर्कफ़्लो इन्फोग्राफिक

फ़्लाईवर्क्स अवतार वीडियो स्किल आपके एजेंट में सीधे शक्तिशाली क्षमताएं लाता है:

बोलती हुई तस्वीरें (Talking Photos): किसी भी स्थिर छवि को तुरंत बात करने वाले वीडियो में बदलें।
सार्वजनिक अवतार: एडवांस टेक्स्ट-टू-स्पीच (TTS) के साथ उच्च यथार्थवादी पूर्व-निर्मित अवतारों का उपयोग करें।
आवाज़ क्लोनिंग (Voice Cloning): छोटे ऑडियो सैंपल से किसी विशिष्ट आवाज़ को क्लोन करें।

आइए सेट-अप में गोता लगाएँ!

चरण 1: स्किल स्थापित करना

सबसे पहले, आपको अपने एजेंट वातावरण में फ़्लाईवर्क्स अवतार वीडियो स्किल स्थापित करने की आवश्यकता है। ClawHub, skills CLI के साथ इसे अविश्वसनीय रूप से आसान बनाता है।

टर्मिनल इंस्टालेशन

अपना टर्मिनल खोलें और स्किल जोड़ने के लिए निम्न कमांड चलाएँ:

# विश्व स्तर पर स्थापित करें (Install globally)
npx skills add Flyworks-AI/skills -g

नोट: आप इस स्किल का उपयोग क्लाउड कोड (Claude Code), कर्सर (Cursor), कोडेक्स (Codex), और अन्य समर्थित AI एजेंटों के साथ कर सकते हैं।

इसके बाद, वीडियो जनरेशन एपीआई (API) के साथ बातचीत करने के लिए आवश्यक पायथन निर्भरताएँ (Python dependencies) स्थापित करें:

pip install -r requirements.txt

डेमो टोकन के साथ इसे आज़माएँ

डिफ़ॉल्ट रूप से, यह स्किल एक मुफ्त-टियर डेमो टोकन के साथ आता है। ध्यान दें कि डेमो टोकन आपके वीडियो में वॉटरमार्क लागू करेगा और उन्हें अधिकतम 30 सेकंड की अवधि तक सीमित करेगा। इन सीमाओं को हटाने के लिए, आप flyworks.ai/setting पर अपने स्वयं के API की (key) के लिए पंजीकरण कर सकते हैं और इसे export HIFLY_API_TOKEN="your_token_here" के माध्यम से सेट कर सकते हैं।

चरण 2: एक बोलती हुई तस्वीर बनाना (लिप-सिंकिंग)

"टॉकिंग फोटो" फ़ीचर वह जगह है जहाँ जादू होता है! आप अपनी या किसी पात्र की स्थिर तस्वीर ले सकते हैं और एक ऑडियो या टेक्स्ट स्क्रिप्ट प्रदान कर सकते हैं। AI छवि का विश्लेषण करेगा और आपके ऑडियो के साथ पूरी तरह से लिप-सिंक करने के लिए मुँह को एनिमेट करेगा।

बात करने वाली तस्वीर डेमो

आप प्राकृतिक भाषा प्रॉम्प्ट का उपयोग करके सीधे OpenClaw को यह कार्य करने के लिए कह सकते हैं:

"मेरी तस्वीर से एक बात करने वाला फोटो वीडियो बनाएं जिसमें कहा गया हो 'हमारी सेवा में आपका स्वागत है'"

या सीधे प्रदान की गई क्लाइंट स्क्रिप्ट का उपयोग करें:

# बात करने वाली तस्वीर तैयार करें
python scripts/hifly_client.py create_talking_photo \
    --image assets/my_photo.png \
    --title "My Avatar"

यह कमांड आपको एक कस्टम अवतार आईडी (Avatar ID) देगा जिसे आप बाद में सहेज सकते हैं और भविष्य के किन्हीं भी वीडियो के लिए पुन: उपयोग कर सकते हैं!

चरण 3: अपने अवतार को आवाज़ देना

एक लिप-सिंक वीडियो केवल उतना ही अच्छा होता है जितनी उसके पीछे की आवाज़ ! जबकि यह स्किल आउट-ऑफ़-द-बॉक्स कई सार्वजनिक TTS आवाज़ें प्रदान करता है (list_public_voices), आप शायद कुछ वाकई अनोखा चाहेंगे — जैसे आपकी खुद की आवाज़।

एक कस्टम आवाज़ को क्लोन करना

वॉयस क्लोनिंग चित्रण

आप बस एक नमूना ऑडियो फ़ाइल प्रदान करके किसी भी आवाज़ को क्लोन कर सकते हैं। फिर से, अपने एजेंट को निर्देश दें:

"इस ऑडियो फ़ाइल से मेरी आवाज़ को क्लोन करें और मेरे कस्टम अवतार का उपयोग करके एक ग्रीटिंग (greeting) वीडियो जनरेट करें।"

हुड के नीचे, यह क्लोनिंग प्रक्रिया को निष्पादित करता है:

python scripts/hifly_client.py clone_voice \
    --audio assets/my_voice_sample.MP3 \
    --title "My Cloned Voice"

चरण 4: अंतिम लिप-सिंक वीडियो जनरेट करें

अब जब आपके पास अपना अवतार (वह "बोलती हुई तस्वीर") और आपकी आवाज़ छाँट ली गई है, तो बस आप उन्हें एक साथ रख दें।

टेक्स्ट, अपना कस्टम अवतार आईडी और आपके द्वारा चुनी गई आवाज़ को पास करते हुए, क्रिएशन कमांड चलाएँ:

python scripts/hifly_client.py create_video \
    --type tts \
    --text "सबको नमस्कार! यह पूरा लिप-सिंक वीडियो OpenClaw और फ्लाईवर्क्स अवतार वीडियो स्किल का उपयोग करके मुफ्त में उत्पन्न किया गया था। काफी बढ़िया है, है न?" \
    --avatar my_custom_avatar_id \
    --voice my_cloned_voice_id

स्क्रिप्ट परदे के पीछे से वीडियो जनरेशन वर्फ़्लो का प्रबंधन करती है। कुछ क्षण प्रतीक्षा करें, और पूर्ण लिप-सिंक के साथ अंतिम एनिमेटेड MP4 वीडियो सफलतापूर्वक जनरेट हो जाएगा!

निष्कर्ष

आकर्षक, उच्च-गुणवत्ता वाले बात करने वाले डिजिटल अवतार बनाना इतना आसान या सुलभ कभी नहीं रहा है। OpenClaw AI एजेंट फ्रेमवर्क को मुफ़्त फ्लाईवर्क्स अवतार वीडियो स्किल के साथ जोड़कर, डेवलपर्स और क्रिएटर अब आसानी से लिप-सिंक कंटेंट के उत्पादन को स्वचालित कर सकते हैं।

आप और कौन सी अद्भुत क्षमताओं को अनलॉक कर सकते हैं, यह देखने के लिए उपलब्ध ClawHub Skills को यहाँ एक्स्प्लोर करें!

OpenClaw का उपयोग करके मुफ्त लिप-सिंक वीडियो कैसे बनाएं