Für 3000 Dollar hat eine Schweizerin ihre Stimme an Microsoft verkauft. Jetzt kann man sie dank KI alles sagen lassen
Was bedeutet es, wenn die eigene Stimme plötzlich alles ansagt, von Tramhaltestellen bis zu Porno-Werbung?
Als Helena Hallberg sich zum ersten Mal Dinge sagen hörte, die sie nie gesagt hatte, scrollte sie gerade durch Instagram. Da war das Video eines befreundeten Musikers, das zeigte, wie er an einem Programm bastelte, das ihm auf der Bühne über den Kopfhörer den Takt angeben sollte. Eine herzliche schweizerdeutsche Frauenstimme sagte den Titel des Liedes an. Hallbergs Stimme.
«Ich habe ihm gleich geschrieben: ‹Weisst du, dass das meine Stimme ist?› So bin ich auf das alles aufmerksam geworden», erzählt Hallberg gegenüber der NZZ.
Sie hat vor einigen Tagen ein Tiktok-Video veröffentlicht, das einen Nerv traf. Darin erzählt sie, dass sie ihre Stimme für den KI-Assistenten Cortana an Microsoft verkauft und so die Kontrolle darüber verloren hat. „Es gibt eine Online-Plattform, auf der man mich alles sagen lassen kann, was man will“, sagt sie in die Kamera.
Es sei zwar auch lustig, wenn ihre Freunde schrieben, sie hätte sie gerade im Burger-Laden oder im Tram gehört. „Aber es ist auch eine Erinnerung daran, dass ich meine Stimme für 3000 Dollar verkauft habe. Und das ist ätzend.»
Der NZZ gegenüber erklärt Hallberg ausführlicher, wie es zu dem Deal mit Microsoft gekommen ist. Es war 2020, während der Pandemie. Hallberg ist Musikerin. Sie hat schwedische Eltern, ist aber vor allem in der Schweiz aufgewachsen. Mit einem Stipendium zog sie 2016 nach New York, um an einer Musikschule zu studieren. Sie lernte ihren Mann, ebenso ein Musiker, kennen und blieb.
Den Lockdown 2020 verbrachten sie in einer Zweizimmerwohnung in Manhattan. „Alle unsere Gigs wurden gestrichen, die Theater wurden geschlossen . . . Der Job kam für mich schon zur richtigen Zeit. 3000 Dollar konnte ich gut brauchen.»
Es ist einer ihrer ersten größeren Aufträge als Sprecherin. Für das Honorar sprach Hallberg etwa 1600 Sätze ein. Dafür verbrachte sie jeden Tag etwa zwei Wochen lang mehr als acht Stunden in ihrer kleinen Aufnahmekabine. Keine Hintergrundgeräusche, kein Knacken, eine ganz bestimmte Lautstärke, genau 10 Sekunden zwischen den Sätzen, das seien die Anweisungen gewesen. Jeden Abend verschickte sie das Material ein und musste dann nachkorrigieren, wenn ein Wort ein wenig anders betont werden sollte.
Microsoft verbietet sexuell explizite Anwendungen – eigentlich
Hallberg hat nicht nur Tonaufnahmen verkauft, sondern das Recht, diese nach Belieben neu zusammenzusetzen. Ihr war klar, dass Microsoft sie als virtuelle Stimme einsetzen wollte, zum Beispiel im Rahmen des Assistenten Cortana oder als Stimme für Anrufbeantworter. Nicht, dass es ihre Stimme dereinst auf seiner Plattform als schweizerdeutsche Frauenstimme «Leni» an jeden interessierten Kunden verkaufen würde.
Es gibt Anzeigen auf Porno-Seiten, die mit einer Schweizer Mundartstimme vertont sind, die sehr nach der «Leni»-Stimme klingt. Das wäre ein Verstoß gegen die Regeln von Microsoft. Die Firma verbietet den Einsatz der KI-Stimme in «sexuell expliziten» Anwendungen. Die Frage, inwiefern das kontrolliert wird, hat die Tech-Firma gegenüber der NZZ nicht konkret beantwortet.
Gefragt, wie sie damit umgehe, zwinkert Hallberg ab: „Ich weiß es nicht, ich beschäftige mich erst gar nicht damit.“ Natürlich sei sie auch der Meinung, dass Microsoft sich zumindest darum kümmern solle, dass so etwas nicht passiere. „Aber ich kann eben nicht viel machen.“
In den USA ist es leichter, seine Stimme zu verkaufen
Es gibt Fälle, die Hoffnung machen. Zum Beispiel jener der Sprecherin Bev Standing. Sie hatte ihre Stimme für einen chinesischen Übersetzungsdienst hergegeben. Jahre später merkte sie, dass ihre Stimme auf einer neuen Video-App zum Einsatz kam: auf Tiktok. Ohne jede vertragliche Grundlage. Standing verklagte Tiktok und schloss sich mit dem Konzern auf einen Vergleich an. Tiktok hat jetzt eine andere Stimme.
Bei Hallberg könnte die Sache schwierig sein, schließlich hat sie ja einen Vertrag mit Microsoft unterschrieben. Der deutsche Anwalt für Musik- und Urheberrecht Georg Manthey schätzt ihre Chancen dann eher schlechter ein, wenn amerikanisches Recht gilt.
In der EU könne man etwas so Persönliches wie die Rechte an der eigenen Stimme oder am eigenen Gesicht nicht so leicht verkaufen, sagt er. Datenschutzregeln und Persönlichkeitsrechte sorgen dafür, dass ein Vertrag sehr explizit aufführen muss, welche Rechte genau veräußert würden, an wen und zu welchen Zwecken. Werden die strengen Vorgaben nicht eingehalten, gibt es verschiedene Ansatzpunkte, die Nutzung der Persönlichkeitsmerkmale zu stoppen.
In den USA sind „Buyout-Verträge“ viel üblicher. Mit diesen können beispielsweise Schauspieler umfangreiche Rechte an ihrem Körper verkaufen – etwa für ein Videospiel. Die Rechtslage in den meisten europäischen Ländern sei weniger klar. Das bedeutet mehr Risiko für Firmen, gleichzeitig mehr Schutz für die Künstler als in den USA. Auch die Chance auf Nachvergütung sei in europäischen Rechtssystemen realistischer. Allerdings stünden Künstler auch nach amerikanischem Recht nicht schutzlos da.
„Es ist kompliziert, es sind mehrere Länder beteiligt“, sagt Hallberg über ihren Vertrag. Mehr wird sie nicht preisgeben. Es ist davon ausgegangen, dass sich Microsoft gut abgesichert hat.
Zumindest tat die Firma das gegenüber der irischen Sprecherin Remie Michelle Clarke. Auch sie hat 2020 für Microsoft ihre Stimme aufgenommen. Später entdeckte sie, dass ihre Stimme auf der KI-Plattform einer anderen Firma angeboten wird, mit der sie nie zusammengearbeitet hat.
Gegenüber dem britischen «Telegraph» erzählt sie, der Anwalt, der den Vergleich mit Tiktok Fehler habe, habe sich auch ihren Vertrag angesehen – und diesen einen «Karrieresuizid» genannt. Microsoft konnte mit ihrer Stimme machen, was es wolle.
Noch kann es lukrativ sein, Stimme und Gesicht zu verkaufen
Hallberg hat in gewissem Sinne Glück. Denn ihr KI-Double ist alles andere als perfekt. „Schon beim Einlesen habe ich Microsoft zurückgemeldet, dass manche Sätze auf Schweizerdeutsch so nicht funktionieren, wegen der anderen Grammatik.“ Sie bekommen immer noch Vertonungs-Jobs von Schweizer Firmen. Die «Leni»-Stimme ist weit weg davon, eine Konkurrenz zu sein.
Das liegt auch daran, dass es auf Schweizerdeutsch wenige Text- und Audiodaten gibt, aus denen KI lernen kann. Stimmen auf Englisch und Spanisch sind schon viel leichter zu imitieren. 30 Sekunden Aufnahme sind oft genug für eine Nachahmung in akzeptabler Qualität.
Solche Technologie stellt etwa die Firma Heygen her. Damit kann man Menschen in Videos in anderen Sprachen sprechen und neue Dinge sagen lassen.
Heygen steckt auch hinter einem Fake, das kürzlich im Netz Aufsehen erregte. Es sieht aus wie ein ganz normales Influencer-Video. Eine junge, hübsche Frau sitzt im Auto, spricht enthusiastisch in die Kamera und empfiehlt Feuchttücher gegen Schweißgeruch. Das Video wirkt natürlich und persönlich. Nur ganz kleine Fehler werden als künstlich generiert.
– Ate-a-Pi (@8teAPi) 26. März 2024
Sogar die Frau, die darin zu sehen ist, glaubte zuerst, das Video stamme von ihr. Sie arbeitet als professionelle Influencerin. Erst als sie sich den Text angehört habe, sei ihr klargeworden, dass es sich um ein KI-Video handle, erzählte sie dem «New York Magazine».
Sie haben Gesicht und Stimme bewusst für das KI-Projekt einer Marketing-Agentur hergegeben, das daraus eine KI-Version von ihr gemacht und verkauft habe. Firmen können so realistisch wirkende Videos kaufen, in denen sie genau so gelobt werden, wie sie das wollen. Sie sind überrascht, fühlen sich aber nicht unfair behandelt. Im Moment profitiere sie sogar, weil das Video viral geworden sei und sie bekannter gemacht habe. Viele neue Kunden wollen sie jetzt im Original buchen.
Noch ist die Technik nicht perfekt. Für wichtige Aufträge setzen Firmen auf echte Aufnahmen von Menschen. Aber die Zeit könnte bald vorbei sein.
Berühmteste Stimmen können sehr viel Geld verdienen
Manuel Naranjo ist Vorstandsmitglied der Vereinigung professioneller Sprecherinnen und Sprecher Schweiz. Er hat seine Stimme für einen Stimmengenerator hergegeben, für eine Anwendung für schwerkranke Menschen, die nicht mehr selbst sprechen können.
In seinem Vertrag war das Einsatzgebiet klar definiert. „Wir empfehlen Verträge, bei denen jede Nutzung der Stimme neu verhandelt werden muss, und Klauseln, damit auch im Fall eines Firmenverkaufs die Stimme nicht anders eingesetzt werden kann.“ Für eine Woche Arbeit bekam Naranjo 7000 Franken, das sei in der Schweiz für solche Aufträge in etwa üblich.
Die berühmtesten Stimmen – wie jene von Arnold Schwarzenegger, der für Garmin-Nutzer die Wege ansagt – können für einen Auftrag Hunderttausende Franken oder mehr bekommen.
Heute kennt auch Hallberg die Rahmenbedingungen, anders als vor vier Jahren, als sie erst begonnen hat, sich neben ihrer Musik ein Standbein als Sprecherin aufzubauen. Schliesslich spricht sie vier Sprachen fließend.
Sie ist grundsätzlich keine Gegnerin von KI-animierten Stimmen. Für die Zukunft hofft sie auf Plattformen, auf denen Künstler ihre KI-Stimme für Musik oder Texte verkaufen können, dafür aber entlohnt werden und die Kontrolle behalten.
Im Moment prüft sie ihre Möglichkeiten. Auf das Video hin habe sie sehr viele Nachrichten erhalten, mit Unterstützung sowohl auf emotionaler als auch auf professioneller Ebene, sagt sie: „Ich fühle mich jetzt weniger allein.“