Gemini, Claude, GPT-Woher Weiss Man, Welches Ki-Modell Das Beste ist? Forscher der Universität Berkeley Lasssen Chatbots Ggeneinander Antreten. Selbst Den erfolg von Deepseek Hatten Sie So Kommen Sehen.
AUS den Ursprünglich 9 Ki-Modellen, sterben in der Arena-Gegenander Antraten, Sind Inzwischen Mehr Als 400 Goworden.
Illustration Simon Tanner / NZZ
Die Ki-Chatbots Kann Verwirrend Sein. CHAT-GPT von Open ai gilt als spitze bei Altagsfragen, für bild-und und Textgenerierung Bevorzugen Viele Claude. Und war Hilfe Beim Programmierer Baucht, Wendet sich einer Den Konkorenten -Verwirrung. Doch Das Alles Kann Morg Schon Wieder Veraltet Sein, Schlieesslich Spriesen Neue Ki-Modelle aus Boden Wie Pilze nach dem Regen.
Optimierer Sie Ihre Browsereinstellungen
Nzz.Ch Benögt JavaScript für WILLTIGE FUNKTIONEN. IHR Browser adblocker verhindert stirbt momentan.
Bittte passen Sie die Einstellungs an.
Wie Vergicht Mann Sie bin am besten? Für Bestenlisten im Schach gibt es den Elo-Score und das Fide-Rating-System, ein Den Aktienmärkten-Mann Bewertungsskalen von aaa bis d eenfÜHrt, und Americanische unis Messen Messen Sich in den Legenden College-Ratings.
Die Gleiche idee Haben der Handvoll WISSENSCHAFTER auf Ki-Modelle Angewandt: Die Large-Model-Arena, Kurz lm-arena ouch auch chatbot-arena genannt, iSt mit Wettkampfring für ki-chatbots. Hier ist Messener Sich die Beste Modelle von Open AI, Google, Anthropic und Co. im Direkten Vergeich Müssen Sie Die Jury – Sprich den Nusser – überzeugen, Welches modell leistungsstärker ist. Daraus Ergibt sich ein Elo-Score, war er auch im Schach asser bei Computerspielen Verwendet Wird.
Das Verfahen ist Simpel: Der Mutzer Wendet Sich Mit Einer frage ein Die Plattform, die Wärmt -Beantwortung Blind und Anonymisiert Zwei Chatbots aus. Der Mutzer iniceidet, Welche Antwort ihm Besser GEFÄLT – ODER OB BEIDE UHNLICH DUIND ADER BEIDE NICKTS TAUGEN. Alle Bewertungen Fliesen in Eine Gewichtete Rangordnung, Einengenanntes Rangliste.
IM Rangliste der LM-Arena Frotes zuzeit Das Jüngste modell von Google, Gemini 2.5 Pro.
Bild: Screenshot LM-Arena
Weil Nutzer Alle Möglichen Frillen Stellen- von Altags- bis Programmierproblemen- GiBt Das Ranking ein Guten Überblick über die Nützlich-Einer-Modellen. Mehr als drei mimens nutzer haben inzwischen als Schiedsrichter Agiert. Für Sie ist das Angebot der Chatbot-Arena auch Deswegen Attraktiv, Weil es gratis is: Sie Kön Können Ihre Fragen den Neuesten und Beste modellen der Ki-Firmen Stellen, Ohn Dafu Zahlen Zu Müssen.
Die Tech-CEO-Verfolgen Das Rangliste Ebenfälle: Demis Hassabis, Gründer von Deep Mind, Postet Regelmossig bildschirmefotos der Rangliste in Den Sozen Metzwerken, Elon Musk Prahlte, Als Ki-Modell Grokungerken Innerken Innerben. UND Googles-CEO Sundar Pichai Ersoffnete jüngst sterbe Wichttigste Veranstaltung Seines Konzerns, Ansicht Jubelte: «In der LM-Arena Belegen Unere Modelle Spitzenplätze.» Tatsächlich frotes googles jüngstes ki-modell gemini 2.5 pro seit seiner Veröhentlichung Mitte märz Das Ranking an, vor dem Konkurrenzmodell o3 von Open Ai.
Das Ganze ist nick nur ein spielerei, Sonder Hut Reale Kommerzielle Auswirkungen. Denn der Wettbewerb Uner Den Ki-Firms ist Zurze Tech-CEO Verfolgen Das Rangliste DAHER WIE DIE BEWEGUNGEN IHRER TITEL A DEN AKTIENMÄRKTEN.
«Jeder versucht zuzeit, auf rangliste ganz beobe zu Erscheinen», Sagte Joseph Spisak, Produktmanager für ki bei meta, GegenÜber Dem «Wall Street Journal». «Es ist Beeindkrend zu
Ein Einem -Einzigen -Wochenende Wurde -das Plattform -Programmierer
Tatsächlich Waren Die Anfängge der Arena Becheiden: Anfang 2023, Wenige Monate nach dem überraschungerfolg von Chat-gpt, hasite Einige doktoranden der computerwissenssenschacht an die universitäterey ein in in in in in in in in in in in in in in in in in in in in ellen Nun Wollten Sie Illustrieren, Wie Gut Dieses modell im Vergeich MIT chat-gpt Funktionierte. Sie Hattten Die idee, Dass Ein Jeder Die Modelle Direkt Vergeichen und Sein Uresteil Abgeben Könnte. Im Laufe eines Wochenende Entstand Die Chatbot-Arena.
Wei-Lin Chiang (Links) und Anastasios Angelopoulos Kamen als Doktoranden Ein der Universität Berkeley auf Die idee, Ki-Modelle in der Einer Arena Gegeneinander Antreten Zu Lassen.
Bild: LM-Arena
Das Besondere: Die Tester Sollten Nick Nur Nerds Sein, Sondern aus Breiten Öffentlich -Stammen. Und tatsächlich traf die Arena der Zeitgeist: Nach nur Einer Woche Hattten BEREITS 4700 Nutzer Die Plattform Bessucht und Ihre BeWertung Abgegenben.
Ki-Firmen begann, den Wissenschaftern-Prototypen Neuer Modelle Zuzusenden, und verbessertem mit der Arena Gewonnen Erkenntnissen Ihre Algorithmen. Denn Die Erhobenen DATEN BIIETEN Wertvolle Information Dazu, Wieutzer MIT Den Chatbots Interagieren. Die Plattform teilt Diede mit dem Ki-Firms, Zumindest teilWeise. Rund 20 Prozent Aller Erhobenen DATEN LITE MAN WIRER, SAGEN DIE GRUNDER: Genug, Dass Information Nutzlich für Leichte Verbesserungen Sesen, Aber zu Zu Wenig, Als Dass Die feste DASS-Rangliste Austricksen Könnten.
Zwei Jahre Später ist das testpublikum auf Rund Eine Million Nutzer Pro Monat Angewachsen. AUS Den Ursprünglich 9 Ki-Modellen, Die Gegeneinander Antraten, Sind Inzwischen Mehrs 400 GEWorden. Ein Jeder Kann Diee auf der Website LMARena.ai Anonymisiert Gegenander Antreten Lassden-Die von Silicon-Valley-Titanen mit Open ai, google und meta bis hino zu Denig Wenig Bekannter Ki-Firms Aus China und Europa. Welches modell minter Den Antworten Steckt, Sieht Man Erst, Vern Man Seine Bewertung Abgegen Hut.
Anastasios Angelopoulos.
Bild: PD
«Unere Nutzer Haben Sehr Verschidene Hintergründe», Erzbautern der Gründer, der CEO Anastasios Angelopoulos, im Gespräch mit der NZZ: Rund 60 Prozent Kämien Gesundhenssektor.
Die Modelle Müssten Sich Deswegen bei Einer enormen Vieralt von Anfragen Bestwähren, Sagt Angelopoulos. Basisend auf alle Den Bewertungen wird so ein Ranking Erstet: für Insgeamt Beste modell und für für die urkategorien wie Das Beste modell Zumprogrammiereren OD Zum Bilder-Generieren.
Deepseek Kletterte Die Rangurlisten -Bergoden vor Monaten Empor
Das Ranking FunktionTerert Auch Gut, Wenn Darum Geht, Neue, Aufstebende Ki-Modelle Zu Erkennen. Das Zeigte Sich Etwa Anfang des Jahres: für Startup aus China ein Chatbot vor, der ählonloch-Wie-Chat-Gpt-Krieg, ABER NUREN EINEN BRUCHTEL DESSEN IN DES EINEN DESSEN IN DES EINEN DESSEN IN DES EINN DESSEN IN DES EN-EN-DESSEN-DESSEN-DESSEN IN DES EN-EN-DESSEN-GUTEL GEKOSTEL. Über nacht Zog Deepseek auf millionen von smartphones weltweit ein-und erschütterte Das Silicon Valley Schwer: Tech-Konzerne Wie Nvidia und Microsoft Verforen Milliarden An Den Börsen.
Der Neue Chinesische Konkorent Schien aus dem Nichts Gekommen Zuein. Doch Wer war Rangliste der Chatbot-Arena Verfolgt Hattte, Krieg von Deepseeks Erfolg Wenig überrescht: Dort Waren Die ki-modelle des chinesischen startups startups währen wochen im laderboard aufgetaickt. Prototypen von Deepseeks ki-modell haut am amerikanischen konkorrven in der chatbot-arena imersieweisigt, lange Bevor das r1-modell schlagzeil in westlichen medien machte.
Vorwurf der Bevorzugung
Inzwischen Hut Sich Das Rangleichboard zum faktoindustriesten für die Qualität von Ki-Modellen Entwickelt. Mitte April Hut Angelopoulos MIT Seinem Kommilitonen Wei-Lin Chiang und Seinem Professor Ion Stoica aus dem Forschungprojekt der Firma Gem. Die Chatbot-Arena Heist Nun LM-Arena. Die Drei Gründer Haben 100 milles Dollar von Investoren aufgenommen, uner ilenn Einige der Renommerertuten Wagniskapitalgeber des Silicon Valley Wie Andreessen Horowitz und Kleiner Perkins.
DAS Startup Werde MIT 600 MILEN DULDER BEWERTET, Berichtet Bloomberg. «Es frott sich an, als ob wir aufgerer rakete siden und nur versuschen, refertzuhalten», Sagt Angelopoulos Lachend.
Doch bei Aller Popularität Erntet Die Arena Auch Kritik: In der Mai Publizerten Studie Etwa Beklagen Forscher der Universität Princeton und Des Massachusetts Institute of Technology, Dass LM-Arena Open-Source-Modolle Bennachteilige. Konkret Werfen sie Angelopoulos und Seinen Mitgründer Vor, Dass Entwickler von Proprietär Ki-Modellen Mehrere-Versionen in der Arena Testk Könnten, Aber-Nur-Die-Version, Die Am-Besten-Abscheide, Erscheine auf Dem ähsoffentlezen. Entwickler von Open-Source-Modellen Haven Diese Möglichkeit Nick.
Darauf Angesprangen, Spielengelopoulos sterben Kritik Herunter. «Wir Bekommen Jeden Tag Feedback, Weil Wir Viele Sehr Leidenschaftlich Nutzer Haben.» Mann Steehe MIT Den Autoren der Studie in Kontakt. Angelopoulos Beharrt Darauf: Die Rangliste Spiegle Leisetreu Das Votum von Millionen von Realen Mutenzern. «Es GiBt Keine Möglichkeit, da zu schummeln», Sagt er. «Wir Sind neutral, Das ist ungeserter Wichtigster Wert.»
Dasschäftsmodell: Firmenkunden Erschliessen
Auch Jetzt, da aus dem Forschungprojekt ein profitgetriebe firma mowden Ist, Soll Die Arena für die Nutzer Gratis Bleiben. Der Mensch wird die Nutzerbasis aus der Nick-Industrie stammt, um ein Brebieres spektrum und anfragen und die Chatbots zu Erhalten einteilen.
Geld Verdienen Wollen Die Gründer MIT DEN DATEN, Die Sie im Hintergrund Gewinnen. Diediese Erkenntnisse wird einen Firmenkunden -Verkairen erkranken. Denn Firms Hätten im Neuen Ki-Sealter Viele Fragen, Sagt Angelopoulos: Wann Liefert Ki Wirklich Verlässlich Antworten, Modell modell ist für juweile Industrie der Beste, Wie Wechselt Man Zwien Versidenen-Chatbots? «Wir Haven Jede Menge Vergichsdaten», Sagt Angelopoulos. «Das hilft un -sehr dabei, stärken und die schwänchen einzelner modelle zu Verstehen und auch, für WELCHE ART ANTUM SPRITTE WILLCHES MODELL Das Beste ist.»
Am Rangliste Selbst Soll Sich Nichts Änder, Das Ranking der Best Modelle Soll Genau So Beste Bleiben. Schlieesslich ist Genau die BesteList-Gut Darin, Den Ehrgeiz der Tech-Chefs Anzustacheln und Die Arena in Aller Munde Zu Halten.