Meta’s Benchmarks für Neue KI-Modelle Können Irreführend Sein

Meta’s Benchmarks für Neue KI-Modelle Können Irreführend Sein

Ein neues, führendes KI-Modell von Meta, Maverick, hat auf LM Arena, einem Test, bei dem menschliche Bewerter die Ausgaben der Modelle vergleichen und auswählen, welches sie bevorzugen, den zweiten Platz belegt. Es scheint jedoch, dass die Version von Maverick, die Meta in LM Arena eingesetzt hat, sich von der Version unterscheidet, die Entwicklern allgemein zur Verfügung steht.

Wie mehrere KI-Forscher auf X (ehemals Twitter) hervorgehoben haben, bemerkte Meta in seiner Ankündigung, dass das Maverick auf LM Arena eine „experimentelle Chat-Version“ ist. Ein Diagramm auf der offiziellen Llama-Website zeigt zudem, dass die Tests von Meta auf LM Arena mit „Llama 4 Maverick, optimiert für Konversation“ durchgeführt wurden.

LM Arena war aus verschiedenen Gründen nie das zuverlässigste Maß für die Leistung eines KI-Modells. Aber KI-Unternehmen haben im Allgemeinen ihre Modelle nicht angepasst oder anderweitig verfeinert, um besser auf LM Arena abzuschneiden – oder haben zumindest nicht zugegeben, dies getan zu haben.

Das Problem, ein Modell auf einen Benchmark zuzuschneiden, es zurückzuhalten und dann eine „Vanille“-Variante desselben Modells herauszugeben, ist, dass es für Entwickler schwierig wird, genau vorherzusagen, wie gut das Modell in bestimmten Kontexten abschneiden wird. Es ist auch irreführend. Idealerweise sollten Benchmarks – so unzureichend sie auch sind – einen Schnappschuss der Stärken und Schwächen eines einzelnen Modells über eine Reihe von Aufgaben bieten.

Tatsächlich haben Forscher auf X beobachtet, dass es markante Unterschiede im Verhalten des öffentlich herunterladbaren Maverick im Vergleich zu dem Modell gibt, das auf LM Arena gehostet wird. Die LM Arena-Version scheint viele Emojis zu verwenden und gibt unglaublich ausschweifende Antworten.

Wir haben Meta und Chatbot Arena, die Organisation, die LM Arena betreut, um einen Kommentar gebeten.

Leave a Comment

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert