Sprach-KI wird mit Unmengen an Texten hergestellt, ohne die Einwilligung des Urhebers. Nun klagen diese. Vom Ergebnis könnte die Zukunft des Journalismus abhängen.
Die «New York Times» hat Microsoft und Open AI verklagt, wegen ihres Chatbots Chat-GPT. Die Tech-Firmen hatten Millionen von Artikeln ohne Erlaubnis benutzt, um den Chatbot zu trainieren.
Dies ist nicht die erste Klage gegen Hersteller von generativer künstlicher Intelligenz (KI). Doch sie ist besonders schwerwiegend. Es liegen ihr hundert Beispiele bei, in denen Chat-GPT ganze Artikel der «New York Times» Wort für Wort wiedergegeben haben soll – ohne Quellenangabe.
Ok, ich habe jetzt die vollständige NYT-Beschwerde gelesen, die heute Morgen gegen OpenAI und Microsoft eingereicht wurde. Ich bin beeindruckt – es ist zukunftsorientiert auf den fairen Wert der Arbeit ausgerichtet, die für die Demokratie von entscheidender Bedeutung ist. Es enthält außerdem 220.000 Seiten mit Ausstellungsstücken, obwohl mir die Seiten von Ex J besonders aufgefallen sind. mehr dazu gleich. /1 pic.twitter.com/e394EZYCed
– Jason Kint (@jason_kint) 27. Dezember 2023
Dies ist ein Beweis dafür, dass die Tech-Firmen mit dem «New York Times»-Material widerrechtlich ein Konkurrenzprodukt aufbaut, steht in der Klageschrift. Sie verlangten Entschädigung und einen Zerstörungsbefehl für alle KI-Produkte, die mit «New York Times»-Material hergestellt wurden. Das würde de facto Chat-GPT, Bing und alle anderen bestehenden KI-Produkte umfassen.
Warum die KI ganze «New York Times»-Texte ausspuckt
„Move Fast and Break Things“, „Bewege dich schnell, und mache Dinge kaputt“ ist das Leitmotiv des Silicon Valley. Bei KI hielten sich viele Firmen besonders genau daran. Sprach-KI war bis vor Kurzem ein Nischenthema für Forscher. Sie experimentierten, wie man Computer mithilfe von großen Datenmengen, Sprache und Wissen beibringen könnte.
Als Quelle nützte man frei verfügbare Datensätze mit Namen wie „Common Crawl“, „Webtext“, „Books1“ und „Wikipedia“. Die Texte darin werden automatisiert aus dem Internet abgerufen. Sie umfassen Internetforen, Wikipedia-Einträge, aber auch Bücher und Zeitungsartikel. Dass diese ohne Lizenz genutzt wurden, störte keinen, solange KI eine Sache der Wissenschaft war.
Doch jetzt ist KI ein Geschäft. Tech-Firmen verkaufen Zugänge an Firmen und Privatkunden. Das Tech-Magazin „The Information“ schätzte im August, dass Open AI in einem Jahr eine Milliarde US-Dollar umsetzen würde. Der Wert der Firma wird auf etwa 90 Milliarden Dollar geschätzt. Der Hauptinvestor Microsoft legte einen Börsenwert zu.
Autoren klagen, Axel Springer und AP schliessen Deals ab
Die Urheber der Daten gingen hingegen leer aus. Nun setzen sie zur Gegenwehr an: Prominente Schriftsteller haben bereits Klage gegen Open AI eingereicht. Künstler und Bildagenturen gehen gegen bildgenerierende Programme vor, die auf ihren Werken basieren.
Die Klage der «New York Times» ist die erste eines großen Medienhauses. Mit anderen Medien haben Open AI Deals abgeschlossen, um Klagen vorzubeugen und die Zusammenarbeit zu sichern. Die Nachrichtenagentur Associated Press (AP) bekam für den offiziellen Zugang zu ihrem Archiv eine unbezifferte Summe und Zugang zu Open-AI-Technologie.
Der Axel-Springer-Medienkonzern, zu dem „Bild“, „Die Welt“, „Business Insider“ sowie „Politico“ gehören, ist ebenso im Geschäft mit Open AI, wie vor zwei Wochen bekanntwurde. Ab 2024 sollen die Springer-Inhalte prominent, und mit Link auf die Quelle versehen, in den Antworten des Chatbots erscheinen, berichtete Reuters. Wie viel Open AI bezahlte, ist auch in diesem Fall nicht bekannt.
Auch die «New York Times» hatte mit Open AI gehandelt. Offenbar war sie mit den Bedingungen nicht zufrieden. Nun könnte sie sich besser erstreiten, vor Gericht oder durch eine außergerichtliche Beilegung.
Die «New York Times» pocht auf den Wert ihrer Daten
Tatsächlich haben die Anwälte der «New York Times» eine substanzielle Klageschrift zusammengestellt. Das liegt nicht nur an den vielen Beispielen, die zeigen, wie der Chatbot ganze Artikel der «New York Times» wiedergibt. Das Medienhaus argumentiert auch mit dem Stellenwert seiner Daten beim Training von Chat-GPT.
Training nennt man die Methode, mit der Sprachmodelle erzeugt werden. Man legt dem Algorithmus Unmengen einen Text vor. Dabei werden manche Wörter verdeckt. Der Algorithmus versucht, sie vorherzusagen. Wenn es ihm glückt, wird er belohnt. Über die Zeit lernt die KI so, welche Wörter in welche Kontexte passen. Das funktioniert gut, sodass sie nach dem Training ganze Texte schreiben kann.
Wer will, dass die KI auch über Fakten in der echten Welt schreiben kann, und nicht nur aus Kochrezepten und Diskussionen in Onlineforen zitiert, für den ist relevant, dass sie auch mit Artikeln über die echte Welt gefüttert wird. Darauf baut die Klage der «New York Times» auf.
Tatsächlich ist die Website der Zeitung im Datensatz Common Crawl die dritthäufigste Quelle, nach dem amerikanischen Patentamt und Wikipedia. Heute schweigt Open AI zwar dazu, welche Daten ihre KI nutzt. Doch die Klageschrift nennt einen Open-AI-Aufsatz von 2020, der angibt, dass Common Crawl die wichtigste Datenquelle für GPT3 war, auch für den direkten Vorgänger der heutigen Sprachmodelle.
1/ Erstens legt die Beschwerde den Vorwurf einer Urheberrechtsverletzung klar dar und hebt den „Zugriff und die erhebliche Ähnlichkeit“ zwischen den Artikeln von NYT und den Ergebnissen von ChatGPT hervor. Wichtige Tatsache: NYT ist der größte proprietäre Datensatz in Common Crawl, der zum Trainieren von GPT verwendet wird. pic.twitter.com/eHO97fstut
– Cecilia Ziniti (@CeciliaZin) 27. Dezember 2023
Die Klageschrift argumentiert nun, dass dieser Nutzen der Daten ohne Einverständnis des Copyright-Besitzers „New York Times“ widerrechtlich sei.
Ein Gegenargument lautet, dass Leistungsschutz- und Urheberrecht beim KI-Training nicht zur Anwendung kommen sollten. Solche Ausnahmen beim Urheberrecht bestehen, wenn der Zweck eines Inhalts bei der Kopie stark vom Original abweicht, damit es möglich ist, Werke zu zitieren. Inwiefern auch KI-Training zulässig ist, ist rechtlich nicht geklärt.
Der Fall wirft eine Frage auf, die sich bei vielen KI-Anwendungen stellt: Wer hat das Recht, mit KI Geld zu verdienen, die auf den Daten anderer Menschen und Firmen beruht? Der Fall stellt aber auch das neueste Kapitel im anhaltenden Konflikt zwischen Tech- und Medienfirmen dar.
Tech-Konzerne und Medien streiten schon länger um Inhalte
Durch den Wechsel ins Digitale sind den Medien große Teile ihrer Werbeeinnahmen verloren gegangen. Werbung wird heute vor allem online geschaltet, und dabei verdient vor allem Google und Meta. Diese weggefallenen Einnahmen müssen Medienhäuser wetten.
Dabei schielten einige auf die Gewinne der Tech-Konzerne: Da Google und Facebook von Medieninhalten auf ihren Plattformen basieren, sollten sie eine Gebühr für die kleinen Vorschau-Schnipsel zahlen, auch «Linksteuer» genannt, so die Befürworter. In vielen Ländern wurden entsprechende Regeln eingeführt.
Die Klageschrift der „New York Times“ hebt sich ausdrücklich davon ab. Sie zeigt den Link mit Schlagzeile und kurzer Vorschau, welchen Mann auf einer Suchmaschine findet. Das sei legitim. Dem gegenüber stellt sie das, was der Bing-Chatbot produziert hat: eine ausführliche Zusammenfassung des befragten Artikels ohne prominenten Link auf die Quelle.
Von der Zusammenarbeit könnten alle profitieren
Während bei der klassischen Suchmaschine Medien profitieren, weil sie gefunden und angeklickt werden, muss der Chatbot-Nutzer die Medienseite gar nicht mehr besuchen. Damit entgehen den Medien potenzielle Kunden und Werbeeinnahmen. Nachhaltig ist das nicht, denn die journalistische Arbeit, die Recherche vor Ort, das Kontrollieren von Fakten, das Gegenlesen, all das muss irgendwer bezahlen.
Technisch haben Medienunternehmen mittlerweile Möglichkeiten, die Algorithmen von Google, Open AI und Co. zu blockieren, welche Zeitungstexte automatisiert speichern und zu neue Trainingsdaten verarbeiten. Allerdings befürchten viele Medien, dass Google und Microsoft sie dafür bestrafen und auch beim Such-Algorithmus schlechter einstufen könnten.
Auch für die Öffentlichkeit wäre eine einfache Blockade nicht optimal. Falls sich KI-Chatbots tatsächlich als Werkzeug zur Suche von Informationen etablieren sollten, wäre es wünschenswert, dass diese bestmöglich trainiert werden, mit aktuellem, glaubwürdigem Material.
Darauf sind auch KI-Hersteller angewiesen. Das zeigen die Einigungen mit Springer und AP. Der Medienökonom Philipp Bachmann von der Hochschule Luzern vermutet, dass Open AI klar ist, dass es gegen Recht verstößt: „Das ist das typische Silicon-Valley-Vorgehen, bei dem man Klagen, Busse und Schadenersatz in Kauf nimmt.“ Das Geschäft lohnt sich trotzdem.»
Damit es sich auch für die Medien lohnt, braucht es akzeptable Bedingungen. Durch ihre schiere Grösse und Relevanz in den Datensätzen hat die „New York Times“ gute Chancen, sich solche zu erstreiten.