Wie ich für unseren Stand auf dem Internationalen Markt der Kieler Woche ein Willkommensvideo in fünf Sprachen gemacht habe – ohne Dolmetscher
So sieht der Editor aus, in dem ich mein Foto hochgeladen und den Begrüßungstext eingetippt habe.
Ich betreue seit drei Jahren ehrenamtlich den Stand unseres Partnerschaftsvereins auf dem Internationalen Markt der Kieler Woche. Dieses Jahr läuft die Woche vom 20. bis 28. Juni, und ich sitze hier am Dienstagabend mit Currywurst-Resten neben der Tastatur und erzähle euch, wie ich es geschafft habe, Besucher aus fünf verschiedenen Partnerstädten persönlich auf ihrer eigenen Sprache zu begrüßen, ohne fünf verschiedene Leute aufzutreiben, die das für mich einsprechen.
Kurz zur Ausgangslage: unser Verein hat einen kleinen Stand zwischen den Ständen der Partnerstädte, und wir zeigen seit Jahren ein kurzes Begrüßungsvideo auf einem Tablet, das am Stand läuft. Bisher war das ein Text auf Deutsch und Englisch, fertig. Dieses Jahr wollte ich es besser machen, weil die Kieler Woche heuer wirklich groß aufgezogen hat – mit der Elfenbeinküste und der Ukraine als neuen Ländern auf dem Markt, dazu Bangladesch, Indonesien, Schweden und der Türkei. Da dachte ich mir, ein bisschen mehr Mühe darf es schon sein.
Kurzes Fazit
Ich habe ein einziges Video von mir aufgenommen, in dem ich auf Deutsch unseren Verein vorstelle, und dann mit FreeLipSync (freelipsync.com) das Audio in vier weitere Sprachen austauschen lassen, ohne meinen Mund nochmal zu bewegen oder neu zu filmen. Die KI passt die Lippenbewegungen automatisch an die neue Sprache an. Hat für den kostenlosen Test komplett ohne Anmeldung funktioniert, kein Wasserzeichen im Ergebnis, und für die längere Version (über 20 Sekunden) habe ich kurz in den Starter-Plan für 4,99 Dollar geschaut. Für unseren Zweck war sogar die kostenlose Version fast ausreichend.
Warum überhaupt ein mehrsprachiges Video statt einfach Untertitel
Untertitel hatte ich auch überlegt. Aber an einem Marktstand mit Musik, Standgesprächen und Menschen, die im Vorbeigehen aufs Tablet schauen, liest kaum jemand Untertitel zu Ende. Ein Gesicht, das in der eigenen Sprache spricht, bleibt einfach besser hängen – das merkt man sofort an den Reaktionen am Stand. Leute aus der Türkei oder aus der Ukraine, die hören "ah, der spricht ja meine Sprache" und bleiben eine Sekunde länger stehen. Das war für mich der eigentliche Grund, es überhaupt zu versuchen.
Hier die Übersicht, was ich an Optionen verglichen habe, bevor ich mich für FreeLipSync entschieden habe:
| Option | Kosten | Aufwand | Ergebnis |
|---|---|---|---|
| Fünf Freiwillige finden, die meinen Text einsprechen | kostenlos, aber zeitintensiv | sehr hoch (Organisation, Termine, Tonqualität unterschiedlich) | uneinheitlich, kein Lippensync zum Originalvideo |
| Professionelles Dolmetscher-Studio buchen | mehrere hundert Euro | mittel | gut, aber für ein Ehrenamtsprojekt finanziell unrealistisch |
| Nur Untertitel einblenden | kostenlos | gering | wird am Stand kaum gelesen |
| KI-Lip-Sync-Tool (FreeLipSync) | kostenlos bis 4,99 $/Monat | gering, ca. 20 Minuten pro Sprache | überraschend natürlich, gleiches Video, andere Sprache |
FreeLipSync im Detail: Was ich tatsächlich genutzt habe
Ich bin auf freelipsync.com gegangen, weil ich vorher schon mal einen Artikel über kostenlose KI-Lippensynchronisation gelesen hatte, und wollte einfach mal schauen, was an Anmeldung nötig ist. Antwort: gar keine. Ich konnte direkt mein Handyvideo hochladen und losklicken.
Was im kostenlosen Tarif wirklich drin ist
Auf der Startseite und auf der Preisseite steht es ziemlich konkret, und ich habe es selbst ausprobiert, bevor ich es hier behaupte:
- Maximal 20 Sekunden Videodauer pro Generierung im kostenlosen Plan
- 133 Zeichen für die Text-zu-Sprache-Eingabe (TTS), wenn man keine eigene Audiodatei hochlädt
- Kein Wasserzeichen – das hat mich am meisten überrascht, weil ich bei den meisten "kostenlosen" Tools mittlerweile ein eingeblendetes Logo erwarte
- 1 Video gleichzeitig in Bearbeitung
- Unterstützung für über 100 Sprachen und Akzente, laut der Funktionsübersicht auf der Seite
Mein Begrüßungssatz war kurz genug ("Herzlich willkommen am Stand des Partnerschaftsvereins Kiel. Wir freuen uns, dass du da bist."), also bin ich mit den 20 Sekunden und den 133 Zeichen pro Sprache locker hingekommen. Für jede der vier Übersetzungen (Englisch, Türkisch, Ukrainisch, Französisch) habe ich den Text eingegeben, eine der "Vorlesen Stimmlagen" gewählt und auf "Kostenlos generieren" geklickt.
Geschwindigkeit und Qualität
Die Seite verspricht Generierung "in unter 30 Sekunden", und das hat bei mir tatsächlich auch so funktioniert – ich musste nie länger als eine Minute warten, bis die Vorschau abspielbar war. Die Lippenbewegungen sahen erstaunlich passend zur jeweiligen Sprache aus, auch beim Türkischen, wo die Mundform schon anders ist als im Deutschen. Es war nicht perfekt bei schnellen Wortfolgen, aber für ein Tablet-Video am Marktstand, das aus ein, zwei Metern Entfernung läuft, war es absolut ausreichend.
Die Oberfläche, in der man Stimme klonen oder ein Preset wählen kann, bevor man das Skript eintippt.
Stimme klonen statt Standardstimme
Es gibt neben den Standard-Stimmlagen auch eine "Stimme klonen"-Funktion. Ich habe kurz getestet, wie das funktioniert: man kann eine eigene Sprachaufnahme hochladen, und das System nutzt diese Klangfarbe für die generierte Sprache in der Zielsprache. Für mein Projekt war mir das fast zu viel Aufwand, weil die Standardstimmen für eine kurze Begrüßung völlig ausreichend klangen, aber für jemanden, der konsistent mit seiner eigenen Stimme in mehreren Sprachen auftreten möchte, ist das ein echter Pluspunkt gegenüber reinen Untertitel-Tools.
Die Sprechfoto-Funktion
Ein Kollege im Verein, der kein Video von sich machen wollte, hat stattdessen einfach ein Porträtfoto hochgeladen und über den separaten KI-Sprechfoto-Generator (es gibt eine eigene Werkzeugseite dafür) ein paar Sätze sprechen lassen. Das war für seinen Beitrag zum gemeinsamen Begrüßungsclip genau richtig, weil er einfach keine Lust hatte, sich filmen zu lassen, aber trotzdem mit seinem Gesicht im Video vorkommen wollte.
Was beim Upgrade dazukommt
Für die offizielle Vereinsfeier am Sonntag wollte ich ein etwas längeres Video mit allen Partnerstädten ansprechen, das ging über die 20-Sekunden-Grenze. Da bin ich kurz in den Starter-Plan für 4,99 Dollar im Monat (regulär 9,90 Dollar, mit Rabatt) gegangen, der laut Preisseite Videos bis zu drei Minuten Länge, bis zu 800 Textzeichen und Downloads in hoher Auflösung erlaubt. Für den Pro-Plan mit unbegrenzten Videos und bis zu 60 Minuten Länge hatte ich keinen Bedarf, das ist eher für Leute, die regelmäßig längere Inhalte produzieren.
Wie schneidet das im Vergleich zu HeyGen ab
Ich kenne HeyGen aus einem früheren Vereinsprojekt, als wir Schulungsvideos übersetzen wollten. HeyGen hat eine ähnliche Video-Übersetzungsfunktion, die ebenfalls Lippenbewegungen an die neue Sprache anpasst.
HeyGens Übersetzungstool funktioniert ähnlich, ist aber stärker auf zahlende Business-Kunden ausgerichtet.
Der Unterschied in der Praxis: HeyGen braucht für die Lip-Sync-Übersetzung praktisch immer einen kostenpflichtigen Plan, sobald man über ein winziges Testkontingent hinauskommt, und eine Registrierung ist von Anfang an Pflicht. Für ein einmaliges Ehrenamtsprojekt mit einem schmalen Budget war mir das zu viel Hürde, bevor ich überhaupt wusste, ob das Ergebnis taugt. FreeLipSync hat mir erlaubt, erst mal kostenlos und ohne Account zu testen, ob die Lippensynchronisation überhaupt gut genug aussieht – und erst danach, als ich überzeugt war, kurz in den günstigsten zahlenden Tarif zu wechseln.
Für wen passt was
- Vereine, Ehrenämter, einmalige Veranstaltungen: der kostenlose FreeLipSync-Tarif reicht für kurze Begrüßungsclips unter 20 Sekunden völlig aus, ganz ohne Anmeldung und ohne Wasserzeichen.
- Wer regelmäßig mehrsprachige Inhalte für einen Verein, eine Schule oder einen kleinen Betrieb produziert: der Starter-Plan für 4,99 Dollar im Monat lohnt sich, sobald man über 20 Sekunden oder 133 Zeichen hinauskommt.
- Unternehmen mit täglichem Content-Output in vielen Sprachen: da macht der Pro-Plan oder ein Tool wie HeyGen mit größerem Funktionsumfang mehr Sinn, weil dort die laufenden Kosten gegenüber dem Zeitaufwand für Eigenproduktion eher aufgehen.
- Wer komplett ohne eigenes Gesicht im Video auftreten möchte: die Sprechfoto-Funktion mit einem einzelnen Porträtbild ist der einfachste Einstieg.
Zum Schluss
Ich hätte nicht gedacht, dass ich an einem Dienstagabend zwischen zwei Schichten am Marktstand noch ein fünfsprachiges Begrüßungsvideo zusammenbasteln würde, aber genau das ist passiert, und es hat keine zwei Stunden gedauert. Wenn ihr auch vor der Situation steht, dass ihr für ein Fest, einen Stand oder eine Vereinsfeier mehrere Sprachversionen von einem einzigen Video braucht, ohne fünf verschiedene Sprecher zu organisieren, probiert es einfach selbst aus: https://freelipsync.com. Der kostenlose Test kostet euch nichts außer ein paar Minuten, und ihr seht sofort, ob euch das Ergebnis überzeugt.
