Sprache und Proteine haben vieles gemeinsam. Deshalb können Chatbots jetzt Eiweissmoleküle basteln
Von KI gestaltete Proteine könnten in der Industrie zum Einsatz kommen – oder in der Krebsmedizin.
Chat-GPT hat die Welt im Sturm erobert. Der Chatbot schreibt Aufsätze, Gedichte und sogar Programmiercodes. Dabei besitzt er die erstaunliche Fähigkeit, Text zu generieren, der nicht nur grammatikalisch korrekt ist, sondern sogar mit Nuancen spielen kann. Der Chatbot basiert auf einem bestimmten Typ künstlicher Intelligenz, den sogenannten großen Sprachmodellen.
Nun haben Forscher Sprachmodelle entwickelt, die nicht Englisch, Französisch oder Deutsch gelernt haben – sondern die Sprache der Biologie.
Genauer gesagt: die Sprache der Proteine. Denn es gibt überraschende Parallelen zwischen dem Aufbau der zentralen Bausteine der Biologie und dem Aufbau unserer Sprache.
Da scheint es naheliegend, dass Modelle, die bei Sprache gut funktionieren, auch in der Biologie Potenzial haben. Zu den Ersten, die in diesem Bereich geforscht haben, zählt die Gruppe um Professor Burkhard Rost von der Technischen Universität München. „Ich war am Anfang extrem skeptisch, ich dachte nicht, dass das klappen würde. Analogie alleine heisst noch nicht, dass es klappt. „Es gibt so viele Analogien, die nicht klappen“, sagt Rost.
Man muss bedenken: Neben den Parallelen gibt es auch bedeutende Unterschiede. So kommen in Proteinen nur 20 verschiedene Aminosäuren vor, lächerlich wenig im Vergleich zu den gut 500 000 Wörtern, die der Duden als Wortschatz der deutschen Gegenwartssprache betrachtet. Dafür sind Proteine mit mehreren hundert Aminosäuren sehr viel länger als ein normaler Satz, der meist mit unter 30 Wörtern auskommt.
Am Ende überredet eine kleine Gruppe seiner Doktoranden Rost, es mit den Sprachmodellen zu versuchen. So werden sie 2019 eine der ersten Forschungsgruppen, die Sprachmodelle auf biologische Daten anwenden. Viele weitere Wissenschaftlerteams werden folgen.
Sprachmodelle lernen aus Lückentexten
Sprachmodelle, wie sie Chat-GPT zugrunde liegen, lernen durch Lückentexte. Und Text gibt es im Internet wahrlich genug. Jeder einzelne davon kann zum Trainieren eines Sprachmodells verwendet werden. Diese riesigen Datenmengen sind es, welche die Sprachmodelle so erfolgreich machen.
Die biologischen Sprachmodelle haben dieses Erfolgsrezept übernommen. Die Sequenzen vieler Proteine sind heute bekannt. Die größte Protein-Datenbank Uniprot listet heute über 250 Millionen Einträge von Proteinsequenzen. Aus jedem lässt sich ein Lückentext machen, mit dem man das Sprachmodell füttern kann.
Um die Lücken korrekt ausfüllen zu können, muss das Modell viel über Sprache lernen: Wortbedeutungen, Grammatik und Zusammenhänge zwischen Wörtern. Alle diese Informationen stecken am Schluss irgendwo im fertig trainierten Sprachmodell. In gleicher Weise hat das mit Proteinen trainierte Sprachmodell sehr viel Grundlegendes über die Eigenschaften und das Zusammenspiel von Aminosäuren und Proteinen gelernt.
Die Sprache der Proteine zu verstehen, kann viele Probleme lösen
Dieses Wissen ist nützlich. Ähnlich wie die auf Sprachmodellen basierenden Chatbots neue, sinnvolle Sätze generieren können, kann man auf Basis der biologischen Sprachmodelle funktionierende neue Proteine entwerfen. Und wie man den Chatbots vorgeben kann, Sätze zu einem bestimmten Thema und in einem bestimmten Stil zu formulieren, so kann man auch den Protein-Chatbots vorgeben, welche Eigenschaften die generierten Eiweisse haben sollen.
Wozu? Proteine sind äußerst vielseitig und daher für die verschiedensten Anwendungen einsetzbar. So erhoffen sich Forscher beispielsweise, mit der Technologie neue Antikörper zu entwickeln, die das Immunsystem auf Krebszellen aufmerksam machen. Dazu muss ein Antikörper exakt zu der Krebszelle passen, wie ein Schlüssel zum Schloss. Bisher wurden nur für wenige Unterkategorien, bestimmte beispielsweise Formen von Brustkrebs, passende Antikörper gefunden. Protein-Chatbots könnten schon bald für viele Krebsarten neue Antikörper vorschlagen, die die Überlebenschancen von Patienten deutlich verbessern könnten.
Auch außerhalb der Medizin sind viele Anwendungen denkbar. In der Industrie möchte man Proteine entwickeln, die bestimmte chemische Reaktionen umsetzen können. Oder man möchte Proteine gestalten, die als Sensoren für gefährliche Stoffe dienen können.
Neue Proteine zu werfen, ist schon lange ein etablierter Forschungszweig. Doch bisher mussten sich die Wissenschaftler darauf beschränken, kleine Veränderungen an bereits bekannten Proteinen vorzunehmen, um neue Proteine mit den gewünschten Eigenschaften herzustellen. Denn längst ergeben sich nicht alle möglichen Aneinanderreihungen von Aminosäuren auch ein funktionelles Protein – genauso wenig, wie jede Aneinanderreihung von Wörtern einen Satz bildet. Die Sprachmodelle öffnen nun das Tor, völlig neuartige Proteine zu erstellen.
Doch man kann mithilfe der biologischen Sprachmodelle nicht nur neue Proteine entwerfen, sondern auch die Eigenschaften von Proteinen vorhersagen, von denen wir bis anhin nur die Proteinsequenz kennen. Das ist besonders bei der Entwicklung neuer Medikamente wichtig. Dort möchte man beispielsweise vorhersagen, welche Proteine in der Zelle gute Ziele für ein neues Medikament darstellen oder welche mit bereits existierenden Medikamenten interagieren könnten.
Zwar sind die denkbaren Anwendungen sehr unterschiedlich. Doch den Protein-Chatbots kommt eines zugute: Die Sprache der Biologie ist immer die gleiche. All die verschiedenen Anwendungen können daher das gleiche Sprachmodell als Grundlage haben und darauf in unterschiedlicher Weise aufbauen. Daher muss nicht jede Forschungsgruppe aufwendig ein eigenes Sprachmodell trainieren. Vielmehr kann man auf bereits veröffentlichte Modelle der großen Tech-Riesen zurückgreifen. Beliebt ist beispielsweise das große Protein-Sprachmodell ESM-2, das letztes Jahr von Forschern des Konzerns Meta veröffentlicht wurde.
Noch ist die Technologie sehr neu, und es ist schwierig zu erkennen, wohin die Entwicklung führen wird. Wie bei jeder neuen Technologie wird sich auch bei den Sprachmodellen zeigen, dass sie nicht allmächtig sind. Doch sowohl das Potenzial als auch die Limits der neuen Protein-Sprachmodelle sind noch längst nicht erkundet. Die Entwicklung steht ganz an ihrem Anfang. Es könnte der Anfang eines kurzlebigen Hypes sein – oder der Anfang einer Revolution.
Die Begeisterung unter Wissenschaftlern ist auf jeden Fall groß und wächst mit jedem Tag. Allein in diesem Jahr wurden bereits über 100 wissenschaftliche Publikationen zu Protein-Sprachmodellen veröffentlicht. Tendenz steigend.
Professor Rost rechnet fest damit, dass die Erfolgsgeschichte weitergeht. „In ein paar Jahren werden Sprachmodelle am Anfang aller Forschung stehen, die Proteinsequenzen betreffen“, sagt er. Er ist sicher: «Es wird die Biologie verändern.»