Darf man Meta-Facebook-Posts und Instagram-Bilder als Material für seine KI verwerten?
Künstliche Intelligenz braucht immer mehr Daten. Nun spähen Firmen auf private Inhalte der Nutzer und wollen sie für KI auswerten. Bei Meta bremsen nun aber die Datenschutzbehörden.
Der Meta-CEO Mark Zuckerberg wird die Daten der Nutzer von Facebook und Instagram für KI nutzen.
Anna Moneymaker / Getty Images Nordamerika
Anfang Juni schickte der Meta-Konzern E-Mails an seine Nutzer mit dem Hinweis: „Wir aktualisieren unsere Datenschutzrichtlinie, da wir KI bei Meta ausweiten.“ Eine jener E-Mails, die die meisten Benutzer beantworten dürften. In diesem Fall zu Unrecht.
Denn mit dieser E-Mail gaben sich Metadaten, Bilder, Texte und Informationen, die Nutzer auf Instagram und Facebook geteilt haben, für seine künstliche Intelligenz (KI) zu verwenden. Einzelne Inhalte, die Nutzer in private Nachrichten geteilt haben, und Daten von minderjährigen Nutzern nimmt das Unternehmen aus.
Meta ist nicht das einzige Unternehmen, das die Daten seiner Nutzer als Trainingsmaterial für KI verwenden und verwerten wird. Auf geltendes Recht wird dabei meist nur wenig Rücksicht genommen. Das sorgt für Unmut bei Benutzern und Datenschützern. Bei Meta sind nun die Behörden eingeschritten.
Was in KI einfließt, kann sie wieder ausspucken
Dass Meta die Bilder und Posts von seinen Nutzern verwenden wird, um KI zu trainieren, ist so bedenklich, wie es klingt. Denn Daten, die bei der Erstellung der KI, dem sogenannten Training, in ein Modell einfließen, bleiben zum Teil darin gespeichert.
So kam es, dass Chat-GPT ganze Artikel der «New York Times» Wort für Wort ausspuckte. Und Bildgeneratoren erzeugen immer wieder Bilder, die einzelnen Bilder im Trainingsmaterial zum Verwechseln ähnlich sind.
Das zeigen Untersuchungen unter anderem von Florian Tramèr, der an der ETH eine Forschungsgruppe zur Sicherheit von KI-Systemen leitet. Sie weisen darauf hin, dass der Bildgenerator Stable Diffusion nicht nur Bekannte wie Filmplakate oder Firmenlogos reproduziert, sondern auch Gesichter von nicht prominenten Menschen. „Ich glaube den Aufschrei um KI-Training mit Nutzerdaten“, sagt Tramèr deshalb.
Es gibt zwar technische Möglichkeiten, die es zumindest unwahrscheinlicher machen, dass Trainingsdaten ganz genau wiedergegeben werden, doch noch sind diese kein Standard. Bisher war das vor allem ein Copyright-Problem. Doch Tramèr sagt: „Je mehr Daten von Nutzern in Modelle einfließen, desto mehr wird es eine Privatsphären-Frage.“
EU-Behörden bremsen Metas Pläne
In den meisten Weltregionen informierte Meta seine Nutzer kaum über die neue Datennutzung. In der EU und der Schweiz ist es dazu gezwungen. Denn diese Bürger haben ein Recht auf Datenschutz. Wer Ihre Daten verarbeitet, muss eine Einwilligung einholen. Je persönlich und heikler die Daten sind, desto strenger sind die Vorgaben dazu.
Deshalb kritisieren viele Datenschützer auch, dass Meta seine Nutzer nur auf ihr Widerspruchsrecht hinweist, anstatt eine ausdrückliche Einwilligung einzuholen. Wer nicht wollte, dass seine Daten von der KI verarbeitet werden, musste eigens ein Formular ausfüllen.
Peter Hense ist als Anwalt auf IT-Recht spezialisiert. Seiner Ansicht nach reicht das Metas-Opt-out-Angebot bei weitem nicht als explizites und informiertes Einverständnis der Nutzer aus, das von Rechts wegen nötig wäre. „Das Vorgehen von Meta hat offensichtlich massive Probleme“, sagt er. Dass die Datenschutzbehörden eingeschritten seien, um die Sache genauer zu untersuchen, sei es folgerichtig.
Aufruhr um veränderte Nutzungsbedingungen bei Adobe
Meta ist nicht das einzige Unternehmen, dessen Nutzer sich im Moment darum kümmern, ihre Daten in KI einzufließen.
Auch Adobe hat gerade große Kritik auf sich gezogen, weil es seine Nutzungsbedingungen per Pop-up-Fenster änderte. Um ihre Adobe-Programme zu öffnen, müssen Benutzer akzeptieren, dass ihre Inhalte maschinell verarbeitet werden dürfen.
– Sam Santala (@SamSantala), 5. Juni 2024
Es geht um die Dokumente in der Cloud: Im Falle von Photoshop und Illustrator um kreative Werke, im Falle des PDF-Readers um teilweise vertrauliche Dokumente.
Darüber hinaus achten Benutzer nun darauf, dass sich Adobe in den Nutzungsbedingungen sehr weitgehend Rechte an den Inhalten der Nutzenden sichert, „um die Software zu verbessern“. Im KI-Zeitalter hat das einen neuen Beigeschmack. Sofort twitterten Nutzer, Adobe plane, ihre Inhalte für KI-Software zu verwenden. Auf sozialen Netzwerken brach ein Sturm der Empörung los.
Adobe reagierte rasch mit einer Klarstellung, es sei bei der Neuerung immer nur darum gegangen, illegale Inhalte aufzudecken. Das Ziel sei nicht gewesen, die Daten der Nutzer zu Trainingsmaterial zu machen.
Der Anwalt Peter Hense ist nicht überzeugt. «In den USA sagt man: ‹Wer vom Goldrausch profitieren will, sollte Schaufeln verkaufen.› Im KI-Goldrausch sind die Daten die Schaufeln.» Trainingsdaten verkaufen sei der Weg, auf dem Adobe und Meta an dem KI-Hype mitverdienen zu wollen, vermutet er.
Seine Kanzlei bereitet bereits eine Unterlassungsklage vor, wegen Verletzung des Mandatsgeheimnisses. Denn um auf PDF zugreifen zu können, akzeptieren zahlreiche Nutzer die Bedingungen und geben Adobe damit Einblick in vertrauliche Inhalte.
Auch der KI-Forscher Tramèr sieht die Episode kritisch: „Dass diese Firmen nicht transparent machen, was sie vorhaben, ist ärgerlich und problematisch.“
In Zukunft dürfte der Konflikt nur weiter eskalieren. Denn KI-Firmen setzen auf immer mehr Daten, um ihre Systeme zu trainieren. Doch die öffentlich verfügbaren Daten gehen zur Neige. Umso interessanter werden die Inhalte von Nutzern, ob in der Cloud gespeichert oder auf Social Media geteilt.
Nicht immer ist klar, was legal ist – und nicht alle halten sich an die Regeln. Das führt zu bizarren Situationen. So wird vermutet, dass die KI-Firma Open AI für seine KI-Youtube-Daten nutzt, während Google, dem Youtube gehört, genau das nicht darf, weil es einen Vertrag mit den Erstellern der Videos hat, der diese Nutzung nicht umfasst.
Experten finden Datenschutzstandards der EU sinnvoll
Nachdem die Datenschutzbehörden eine Rückmeldung mit Metadaten gehalten hatten, gab das Unternehmen bekannt, das Einführen seiner KI-Bots in Europa verzögern zu wollen.
Der Anwalt Peter Hense ist allerdings wenig zuversichtlich, dass Meta nun wirklich davon ablässt, die Daten der europäischen Nutzer für KI zu verarbeiten. Er tippt eher darauf, dass die Metadaten über eine Tochtergesellschaft des Unternehmens abgegriffen werden und im Zweifelsfall lieber später eine Strafe gezahlt wird, wie schon in der Vergangenheit geschehen. Meta steht seit Jahren wegen in Konflikt mit den europäischen Behörden und wurde wegen fragwürdiger Datennutzung immer wieder sanktioniert. Bisher seien die erzielten Sanktionen allerdings kaum spürbar, sagt Hense.
In seiner Pressemitteilung betont Meta derweil, dass Europa bei KI auf einem Scheideweg stehe, und warnt vor „extremistischen Positionen“, welche die KI-Entwicklung hemmten. Dieses Argument überzeugt weder Hense noch Tramèr. Die Datenschutzstandards der EU sind sinnvoll und wichtig und fördern echte Innovation auch nicht im Weg.