KI-Texte fluten das Internet – und bedrohen so die nächste Generation der KI-Modelle
Künstliche Intelligenz braucht echte Texte und Bilder, um sich weiterzuentwickeln. Doch menschliche Daten sind endlich. Firmen suchen verzweifelt nach Lösungen.
Wenn künstliche Intelligenz Hände zeichnet, ist das Ergebnis bisweilen verstörend. Die Zahl der Finger ist falsch, die Handgelenke sind unnatürlich verbogen.
Der Grund dafür ist einfach: Künstliche Intelligenz (KI) kann nur aus Beispielen lernen. Sie «weiss» nicht, wie viele Finger Menschen haben. Sie kennt nur sehr viele Bilder von Menschen. Und während auf diesen Bildern Gesichter sehr oft zu sehen sind, kommen Hände seltener vor – zudem in unterschiedlichen Positionen, oft ist nur ein Teil des Fingers sichtbar. Deshalb ist es nicht verwunderlich, dass Hände aus der KI oft monströs aussehen, Gesichter aber sehr gut.
Man könnte in dem Beispiel «Hände» durch jeden Sachverhalt ersetzen, der im Internet nicht oft und beständig vorkommt. Mit all diesen Dingen tut sich KI schwer. Immer wieder erfindet sie Fakten oder eben Gliedmassen.
Manche Forscher glauben, dass sich diese sogenannten Halluzinationen mit mehr Übungsdaten verringern lassen. Schliesslich ist KI in den letzten Jahren nicht durch neue Erfindungen mächtiger geworden, sondern durch immer mehr Übungsbeispiele und aufwendigeres Training. Die für Sprach-KI genutzte Datenmenge ist exponentiell gewachsen.
Heutige KI hat bei ihrem Training schon einen Grossteil des Internets gesehen. Wikipedia, Chat-Foren und digitalisierte Bücher sind bereits verarbeitet. Dazu vermischt sich unter den Daten im Internet immer mehr KI-gemachtes Material. Aber was, wenn KI aus Daten lernt, die Halluzinationen beinhalten?
Künstlich dumm
Eine Serie zu der Frage, ob künstliche Intelligenz das Internet kaputtmacht.
Alle Artikel dieser Serie anzeigen
Nicolas Papernot von der Universität von Toronto, Kanada, hat gemeinsam mit anderen Forschern untersucht, was passiert, wenn KI von KI lernt. KI mit KI-generierten Daten zu trainieren, sei ein bisschen wie Fotokopien von Fotokopien machen, sagt er. Man entferne sich immer weiter vom Original.
Er erklärt: „Stellen Sie sich vor, Sie bauen eine KI, die Bilder von Katzen generiert.“ Sie trainieren sie mit 100 Katzenbildern, davon sind zehn Katzen blau und 90 gelb. Wenn diese KI Katzenbilder generiert werden, werden die blauen Katzen gelblich aussehen, weil in den Übungsdaten viel mehr gelbe Katzen vorkommen. Wenn man aus diesen Katzenbildern ein neues KI-Modell macht, werden dessen blaue Katzen noch etwas gelber sein. Wenn man so weitermacht, wird die KI irgendwann gar keine blauen Katzen mehr erzeugen.»
Papernot und seine Kollegen haben diesen Moment den «Kollaps des KI-Modells» getauft: den Punkt, ab dem die KI so viele Details verloren hat, dass ihre Erzeugnisse nicht mehr die Verteilungen der Realität widerspiegeln. „Dieser Effekt führt zu Ungenauigkeiten und zu Diskriminierung von Minderheiten“, sagt Papernot.
Durch künstlich generierte Daten lernte KI das Spiel Go
Dabei brachten synthetische, auch mit Computern erstellte Trainingsdaten durchaus Erfolge. Zum Beispiel hat das KI-Programm Alpha-Go der Firma Deepmind seine Fähigkeiten im Brettspiel Go verbessert, indem es millionenfach gegen sich selbst gespielt wurde.
Kenner des Brettspiels waren begeistert und auch schockiert, als Alpha-Go 2016 in der Partie gegen den Go-Weltmeister Lee Sedol einen Zug machte, den kein menschlicher Spieler je gesehen hatte. Die Episode zeigt das Potenzial von synthetischen Daten: echte, kreative Innovation aus der KI.
Aber bei Sprache und Bildern klappt die Sache nicht. Denn sie funktionieren ganz anders als ein Spiel. Spiele wie Go haben Regeln. Texte und Bilder der Welt sind viel komplexer. Es gibt keine Liste mit Regeln, die sie definieren. Und während man Spielzüge danach bewerten kann, wie viel Erfolg sie bringen, gibt es in vielen Feldern keine Möglichkeit, die Qualität des KI-Erzeugnisses klar zu bewerten.
Das Innovative an Systemen wie Chat-GPT ist sogar, dass sie Sprache allein aus Beispielen lernen, ohne Regeln. Doch ohne Regeln lassen sich auch keine hilfreichen synthetischen Daten erzeugen.
Pablo Villalobos vom Forschungsinstitut Epoch AI, das sich mit wichtigen Kennzahlen für KI-Fortschritt beschäftigt, sieht Potenzial bei synthetischen Daten für spezifische Anwendungen in Mathematik oder Informatik. Denn dort ist klar überprüfbar, was die Qualität der generierten Daten ist. Es gibt messbaren Fortschritt, den man optimieren kann. Viel schwierig sei es, echtes Urteilsvermögen aus synthetischen Daten zu lernen.
Nicolas Papernot kennt die Grenzen synthetischer Daten aus der Praxis, durch seine Forschung im Bereich KI und Privatsphäre: «Synthetische Daten sind der heilige Gral in diesem Feld.» Jahrzehntelang hatten Forscher daran gearbeitet, beispielsweise um KI im Gesundheitsbereich erzeugen zu können, ohne die Privatsphäre der Patienten zu schädigen.
„Qualitativ hochwertige Daten, die nichts mit einzelnen Personen zu tun haben, würden die Forschung extrem bereichern.“ Doch bisher sind noch alle daran gescheitert, synthetische Daten in ausreichender Qualität zu erzeugen. Forschen Sie zwischen den meisten anderen Methoden, um die Privatsphäre der Datenquellen zu schützen.
Für den Mangel an Trainingsdaten bedeutet das auch: Künstliche Daten werden ihn wohl nicht lösen.
KI-Unternehmen zapfen fragwürdige Datenquellen an
Deshalb sehen sich KI-Unternehmen nun nach anderen Datenquellen um. Der Facebook-Konzern Meta kam im Konflikt mit den Behörden der EU, weil er die Bilder und Posts seiner Nutzer in seine KI einfliegen lassen wollte. In anderen Weltregionen ohne Datenschutzregeln hat er das schon getan.
Die KI-Firma Open AI hat laut einer Recherche der «New York Times» Unmengen an Youtube-Videos transkribiert, höchstwahrscheinlich illegal, um genug Trainingsmaterial für GPT-4 zu bekommen. Und Google hat seine Nutzungsbedingungen geändert, veröffentlichen, um auch Restaurantkritiken und öffentliche Google-Docs in seine KI einfliegen zu lassen.
Die Unternehmen zapfen alles an, was sie finden können. Denn die Zeit drängt. Nach Schätzungen des Forschungsinstituts Epoch AI wird bereits im Jahr 2028 öffentliches menschengemachtes Material nicht mehr ausreichen, um bessere KI zu trainieren.
Blogs und Medien leiden unter KI-Konkurrenz
Und diese Projektion schliesst noch gar nicht ein, wie generative KI selbst das Angebot im Internet verändert. Wenn Nutzer nur noch Chatbots befragen, anstatt im Internet zu surfen, bringt das Websites in Bedrängnis, die sich durch Klicks finanzieren, ob es nun Online-Magazine, Hobby-Websites oder Foren sind. Es sinkt der Anreiz, dort zu posten. Und damit geht den Tech-Firmen wieder die Quelle verloren.
Besonders gut zeigt das Beispiel von Stack Overflow, einem Forum, auf dem sich Programmierer gegenseitig bei Problemen helfen. Früher postete man dort seine Fragen und hoffte auf die Antwort von Experten. Diese Beispiele dienen als Trainingsmaterial für KI-Programmier-Assistenten. Und diese machen heute wiederum das Fragen Antworten und auf dem Forum obsolet.
Die Techfirmen reagieren, indem sie mit Foren wie Stack Overflow und Reddit Kooperationen eingehen, Verträge mit Medienunternehmen unterschreiben, in denen festgehalten wird, dass sie für den Nutzen neuer Artikel etwas bezahlen. Es ist aber mehr als fraglich, ob das erreicht wurde, um die Umbrüche auszugleichen, die KI in der Internet-Ökonomie anrichtet.
Für die Entwicklung künstlicher Intelligenz bedeutet das: Es sind neue Ansätze gefragt. Das Potenzial durch immer größere Modelle wird an sein Ende kommen. Und zwar nicht nur aufgrund der Daten. Wenn die KI-Modelle wie bisher weiter entwickelt werden, müsste ein wesentlicher Teil der globalen Finanzen für Chips ausgegeben werden, sagt Villalobos von Epoch AI. „Dazu steigt der Energieaufwand und die Netzwerkkomplexität. All das steht vor der Explosion.»
Die verschiedenen Engpässe werden wohl dazu führen, dass sich KI-Forschung wieder stärker mit Methoden beschäftigt. Neue Ansätze sind gefragt, um effektiver zu lernen, auch mehr Informationen aus den vorhandenen Daten zu ziehen.
Künstlich dumm
Eine Serie zu der Frage, ob künstliche Intelligenz das Internet kaputt macht.