Artificial Intelligence (AI)

The Death of the Static AI Benchmark | by Sandi Besen | Mar, 2024

Written by smirow

Benchmarking als Erfolgsmaßstab

Sandi Besen
Auf dem Weg zur Datenwissenschaft

Benchmarks werden oft als Zeichen des Erfolgs gepriesen. Sie sind eine bekannte Methode zur Messung des Fortschritts, sei es das Durchbrechen der 4-Minuten-Meile oder die Fähigkeit, bei standardisierten Prüfungen hervorragende Leistungen zu erbringen. Im Kontext der künstlichen Intelligenz (KI) sind Benchmarks die gebräuchlichste Methode zur Bewertung der Leistungsfähigkeit eines Modells. Branchenführer wie OpenAI, Anthropic, Meta, Google usw. Nehmen Sie an einem Rennen teil, um mit höheren Benchmark-Ergebnissen zu konkurrieren. Allerdings lassen aktuelle Forschungsstudien und Unmut der Branche Zweifel daran aufkommen, ob gängige Benchmarks tatsächlich das Wesentliche der Leistungsfähigkeit eines Modells erfassen.

Quelle: Panel 3

Neue Forschungsergebnisse unterstreichen die Wahrscheinlichkeit, dass die Trainingssätze einiger Modelle durch die Daten, anhand derer sie ausgewertet werden, verunreinigt wurden, was Zweifel an der Authentizität ihrer Benchmark-Ergebnisse aufkommen lässt, die ein echtes Verständnis widerspiegeln. Genau wie in Filmen, in denen Schauspieler Ärzte oder Wissenschaftler spielen, liefern sie den Text, ohne die zugrunde liegenden Konzepte wirklich zu verstehen. Als Cillian Murphy im Film „Oppenheimer“ den berühmten Physiker J. Robert Oppenheimer spielte, verstand er die komplexen physikalischen Theorien, über die er sprach, wahrscheinlich nicht. Obwohl Benchmarks dazu gedacht sind, die Fähigkeiten eines Modells zu bewerten, tun sie dies wirklich, wenn das Modell sie wie ein Schauspieler auswendig gelernt hat?

Jüngste Erkenntnisse der University of Arizona haben ergeben, dass GPT-4 durch die Datensätze AG News, WNLI und XSum kontaminiert ist, was die damit verbundenen Benchmarks in Misskredit bringt.[1]. Darüber hinaus fanden Forscher der Universität für Wissenschaft und Technologie Chinas heraus, dass sie ihre „Probing“-Technik auf den beliebten MMLU-Benchmark einsetzten [2]Die Ergebnisse gingen deutlich zurück.

Zu ihren Sondierungstechniken gehörten eine Reihe von Methoden, die darauf abzielten, das Verständnis des Musters für die Frage in Frage zu stellen, wenn sie auf unterschiedliche Weise mit unterschiedlichen Antwortoptionen, aber mit derselben richtigen Antwort gestellt wurden. Zu Beispielen für Umfragetechniken gehörten: Paraphrasieren von Fragen, Paraphrasieren von Auswahlmöglichkeiten, Austauschen von Auswahlmöglichkeiten, Hinzufügen von zusätzlichem Kontext zu Fragen und Hinzufügen einer neuen Auswahlmöglichkeit zu Referenzfragen.

Aus der Grafik unten ist ersichtlich, dass zwar jedes getestete Modell beim unveränderten „Vanilla“-MMLU-Benchmark eine gute Leistung erbrachte, es jedoch nicht funktionierte, wenn Sondierungstechniken zu verschiedenen Abschnitten des Benchmarks (LU, PS, DK, Alle) hinzugefügt wurden sowie. .

„Vanilla“ steht für die Leistung auf dem unveränderten MMLU-Benchmark. Die anderen Schlüssel stellen die Leistung in den geänderten Abschnitten des MMLU-Benchmarks dar: Sprachverständnis (LU), Problemlösung (PS), Domänenwissen (DK), Alle

Diese sich entwickelnde Situation führt zu einer Neubewertung der Art und Weise, wie KI-Modelle bewertet werden. Der Bedarf an Benchmark-Tests, die die Fähigkeiten zuverlässig demonstrieren und Datenkontaminations- und -aufbewahrungsprobleme vorhersehen, wird offensichtlich.

Da sich Modelle weiterentwickeln und aktualisiert werden, um möglicherweise Benchmark-Daten in ihre Trainingssätze aufzunehmen, werden Benchmarks von Natur aus eine kurze Lebensdauer haben. Darüber hinaus vergrößern sich die Kontextfenster des Modells schnell, sodass mehr Kontext in die Antwort des Modells einbezogen werden kann. Je größer das Popup-Fenster ist, desto größer sind die potenziellen Auswirkungen kontaminierter Daten, die indirekt den Trainingsprozess des Modells verzerren und es auf die gesehenen Testbeispiele ausrichten.

Um diesen Herausforderungen zu begegnen, entstehen innovative Ansätze wie dynamische Benchmarks, die Taktiken wie das Modifizieren von Fragen, das Komplizieren von Fragen, das Einbringen von Rauschen in die Frage, das Paraphrasieren der Frage, das Umkehren der Polarität der Frage usw. anwenden. [3].

Das folgende Beispiel zeigt verschiedene Methoden zum Bearbeiten von Referenzfragen (entweder manuell oder über ein generiertes Sprachmodell).

Quelle: Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Assessment

Je weiter wir voranschreiten, desto deutlicher wird die Notwendigkeit, die Bewertungsmethoden stärker an realen Anwendungen auszurichten. Die Festlegung von Benchmarks, die praktische Aufgaben und Herausforderungen genau widerspiegeln, wird nicht nur ein genaueres Maß für die KI-Fähigkeiten liefern, sondern auch die Entwicklung kleiner Sprachmodelle (SLMs) und KI-Agenten leiten. Diese spezialisierten Modelle und Agenten erfordern Qualifikationen, die ihr Potenzial zur Ausführung praktischer und nützlicher Aufgaben wirklich ausschöpfen.

About the author

smirow

Leave a Comment