taz.de -- KI zum Klonen von Stimmen: Künstliche Stimmen, ganz natürlich

> Ein Tool zum Klonen von gesprochener Sprache sorgt für Diskussionen. Der Hersteller betont die Potenziale – und schreckt vor einer Freigabe zurück.

Bild: Stimmen ohne Einwilligung zu klonen ist rechtswidrig

Der Anruf kam, als ihre 15-jährige Tochter gerade auf einer Skifreizeit war. Auf dem Display stand eine unbekannte Nummer, doch als sie den Anruf annahm, hörte Jennifer DeStefano die Stimme ihrer Tochter, die weinte und um Hilfe flehte, so erzählte es DeStefano dem US-Fernsehsender WKYT. Dann habe sich eine Männerstimme gemeldet, die ein Lösegeld forderte und drohte, der Tochter etwas anzutun.

Allein: Es gab keine Entführung. Betrüger hatten mittels Software die Stimme der Tochter geklont. „Es war eins zu eins ihre Stimme. Es war ihr Tonfall. Es war genau so, wie sie geweint hätte“, sagte die Mutter. Der Fall, der sich zum Glück schnell aufklären ließ, liegt bereits ein knappes Jahr zurück, doch er bekommt neue Aktualität durch die jüngste Veröffentlichung aus dem Hause des US-Unternehmens OpenAI. Die auf den Bereich Künstliche Intelligenz spezialisierte Firma stellte Ende voriger Woche ihr jüngstes Tool vor: Voice Engine, ein Programm, mit dem sich Stimmen klonen lassen – und das deutlich schneller als mit bisherigen Programmen.

Künstliche Intelligenz (KI) ist eine der Technologien mit den aktuell größten Entwicklungssprüngen und OpenAI eines der führenden Unternehmen. Gestartet mit einem Non-Profit-Ansatz und der Idee, KI-Systeme zu entwickeln, die gut sind für die Menschheit, ist mittlerweile Microsoft maßgeblicher Investor und die Produkte der Firma sind durchaus umstritten. So auch Voice Engine. OpenAI zeigt anhand von Beispielen, dass das Programm auf Basis einer 15-sekündigen Audioaufnahme und einer Texteingabe eine neue Audiosequenz erzeugt, die den eingegebenen Text spricht und dabei vom Klang her sehr nah an der Sprecherstimme aus dem 15-Sekunden-Sample ist. Bislang waren als Basis für ein solches Klonen der Stimme in der Regel Stimmproben von mindestens einer Minute Länge nötig.

OpenAI betont die positiven Möglichkeiten: So könnten etwa Menschen, die infolge einer Krankheit nicht mehr sprechen können, wieder mit ihrer Stimme zu Wort kommen. Zumindest, wenn es eine 15-sekündige Audioaufnahme von der Person gibt, was in Zeiten von Sprachnachrichten bei vielen Menschen der Fall sein dürfte. Ein anderer Bereich könnte die internationale Kommunikation sein. So stellte OpenAI generierte Audio-Samples in mehreren Sprachen von Englisch über Japanisch bis Swahili vor. Die Basis dafür ist auch hier die 15-sekündige Referenzaufnahme und eine Texteingabe, die von der KI zu Sprache verarbeitet wird. Texte lassen sich heute schon schnell und in meist hoher Qualität mittels KI übersetzen, zum Beispiel mit Anbietern wie Google Translate oder DeepL.

Dennoch hat OpenAI das Modell nicht allgemein für die Nutzung freigegeben, sondern [1][lediglich die Ergebnisse vorgestellt]. „Wir sind uns darüber im Klaren, dass die Erzeugung von Sprache, die den Stimmen der Menschen ähnelt, ernsthafte Risiken birgt“, so das Unternehmen in einem [2][Blogbeitrag]. Man teste die Technologie derzeit „in kleinerem Maßstab“ und werde dann über das weitere Vorgehen entscheiden. Die an den Tests beteiligten Partner müssten einer Reihe von Bedingungen zustimmen. Unter anderem dürften nur Stimmen verwendet werden, wenn die zugehörigen Personen einwilligten. Darüber hinaus habe das Unternehmen ein digitales Wasserzeichen entwickelt, was die Rückverfolgbarkeit von erstellten Sequenzen ermögliche.

Die Stimme von Nawalnys Mutter

„Ein naheliegender Gedanke bezüglich der Gefahren, Stimmen synthetisch zu generieren, ist der Einsatz für Desinformation“, sagt Sami Nenno, der am Alexander von Humboldt Institut für Internet und Gesellschaft dazu forscht, der taz. Audio-Deepfakes heißen solche gefälschten Sequenzen. Ein Beispiel: Eine [3][vermeintliche Audio-Aufnahme] von der Mutter des verstorbenen russischen Oppositionellen Alexej Nawalny, in der sie schwere Vorwürfe gegen dessen Ehefrau erheben soll. Nenno zufolge sind solche reinen Audio-Deepfakes jedoch aktuell selten.

Sein Kollege Matthias Kettemann, Professor für Innovationsrecht, stellt klar: Stimmen ohne Einwilligung zu klonen ist rechtswidrig. Doch dass ein Verbot nicht unbedingt auch eine wirksame Strafverfolgung nach sich zieht, zeigen jetzt schon Delikte von Identitätsdiebstahl bis Hassrede. Verbreitet hat sich daher die Forderung nach einer Art Wasserzeichen, um KI-generierte Inhalte eindeutig kenntlich zu machen, wie es auch bei Voice Engine der Fall sein soll. Kettemann ist skeptisch: „Jede Kennzeichnung lässt sich aufheben; und böswillige Akteure halten sich ohnedies nicht dran.“ Wichtiger sei daher Bildung, bereits in der Schule. Und Umsicht: „Es ist klug, dass OpenAI beschlossen hat, die Stimmen-KI nicht flächendeckend auszuspielen – gerade in einem Superwahljahr wäre das auch demokratiepolitisch herausfordernd.“

6 Apr 2024

LINKS

[1] https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

[2] https://help.openai.com/en/articles/9028393-how-to-access-the-voice-engine

[3] https://correctiv.org/faktencheck/2024/03/07/russland-deepfake-alexej-nawalny-pro-putin-profile-verbreiten-angebliches-audio-seiner-mutter-ljudmila-nawalnaja/

AUTOREN

Svenja Bergt

ARTIKEL ZUM THEMA

Künstliche Intelligenz auf Plattformen: Tiktok will KI-Inhalte kennzeichnen

Mit einem Hinweis will die Plattform Klarheit schaffen. Auch andere Plattformen sollen die Kennzeichnung übernehmen können.

Pressefreiheit in der Slowakei: Die Wunde ist nicht verheilt

Sechs Jahre nach dem Mord am Journalisten Ján Kuciak bleibt die Pressefreiheit in der Slowakei prekär. Premier Fico sieht Journalisten als Hindernis.

OpenAI-Mitgründer verlässt Unternehmen: Andrej Karpathy bestätigt Abgang

Der Forscher will sich zukünftig persönlichen Projekten widmen. Erst im November hatte OpenAI mit der Entlassung von Sam Altman Aufsehen erregt.

Deepfake des ZPS: Nur kein falscher Scholz

Das Zentrum für Politische Schönheit veröffentlicht zum zweiten Mal ein Video, in dem Olaf Scholz eindrücklich vor der AfD warnt. Aber: Es ist nicht echt.

taz.de -- KI zum Klonen von Stimmen: Künstliche Stimmen, ganz natürlich

Die Stimme von Nawalnys Mutter

LINKS

AUTOREN

TAGS

ARTIKEL ZUM THEMA