Artificial Intelligence (AI)

Are Language Models Benchmark Savants or Real-World Problem Solvers? | by Tula Masterman | Mar, 2024

Written by smirow

Évaluer l'évolution et l'application de modèles de langage sur des tâches du monde réel

Maître de Toula
Vers la science des données
Étudiants en IA passant un examen dans une salle de classe.  Image créée par l'auteur et DALL-E 3.
Étudiants en IA passant un examen dans une salle de classe. Image créée par l'auteur et DALL-E 3.

Dans le domaine de l'éducation, les meilleurs examens sont ceux qui mettent les étudiants au défi d'appliquer ce qu'ils ont appris de manière nouvelle et imprévisible, allant au-delà de la mémorisation de faits pour démontrer une véritable compréhension. Nos évaluations des modèles de langage devraient suivre le même modèle. Alors que nous voyons chaque jour de nouveaux modèles inonder l’espace de l’IA, qu’ils proviennent de géants comme OpenAI et Anthropic, ou d’équipes de recherche et d’universités plus petites, il est essentiel que nos évaluations de modèles approfondissent les performances des benchmarks standards. De nouvelles recherches suggèrent que les critères sur lesquels nous nous appuyons pour évaluer la capacité du modèle ne sont pas aussi fiables que nous le pensions. Afin que nous puissions défendre de nouveaux modèles de manière appropriée, nos références doivent évoluer pour être aussi dynamiques et complexes que les défis du monde réel que nous demandons à ces modèles et aux architectures d'agents d'IA émergentes de résoudre.

Dans cet article, nous explorerons la complexité de l'évaluation des modèles de langage en répondant aux questions suivantes :

  1. Comment les modèles de langage sont-ils évalués aujourd’hui ?
  2. Dans quelle mesure les modèles linguistiques qui excellent sur les benchmarks sont-ils fiables ?
  3. Les modèles linguistiques et les agents d’IA peuvent-ils traduire les connaissances en action ?
  4. Pourquoi les modèles linguistiques (ou modèles de base) devraient-ils maîtriser plus que le texte ?

Alors, comment les modèles linguistiques sont-ils évalués aujourd’hui ?

Aujourd'hui, la plupart des modèles, soit les grands modèles de langage (LLM), soit les petits modèles de langage (SLM) sont évalués sur un ensemble commun de critères de référence, notamment Massive Multitask Language Understanding (MMLU), Grade School Math (GSM8K) et Big-Bench Hard (BBH). des ensembles de données, entre autres.

Pour fournir une compréhension plus approfondie des types de tâches évaluées par chaque benchmark, voici quelques exemples de questions de chaque ensemble de données :

  • MMLU: Conçu pour mesurer les informations que le modèle a apprises au cours de la pré-formation sur une variété de sujets basés sur les STEM et les sciences humaines et de niveaux de difficulté allant de la compréhension professionnelle élémentaire à avancée à l'aide de questions à choix multiples.
    Exemple de question de médecine universitaire dans MMLU : « Lors d'un test génétique sur un nouveau-né, on découvre une maladie génétique rare à transmission récessive liée à l'X. Parmi les affirmations suivantes, laquelle est probablement vraie concernant l’origine de la maladie ? A. Tous les descendants du côté maternel souffriront de la maladie. B. Les femmes seront environ deux fois plus touchées que les hommes de leur famille. C. Toutes les filles d'un homme atteint seront touchées. D. Il y aura une répartition égale des hommes et des femmes touchés. (La bonne réponse est C) [2]
  • GSM8K: Les modèles de langage ont généralement du mal à résoudre des questions mathématiques, l'ensemble de données GSM8K évalue la capacité d'un modèle à raisonner et à résoudre des problèmes mathématiques à l'aide de 8,5 000 problèmes mathématiques divers à l'école primaire.
    Exemple : « La mère de Dean lui a donné 28 $ pour aller à l'épicerie. Dean a acheté 6 petites voitures et 5 ours en peluche. Chaque petite voiture coûte 12 $ et chaque ours en peluche coûte 1 $. Sa mère se sent alors généreuse et décide de lui donner 10 $ supplémentaires. Combien d’argent reste-t-il à Dean ? [3]
  • BBH: Cet ensemble de données se compose de 23 tâches de l'ensemble de données Big Bench que les modèles de langage ont traditionnellement du mal à résoudre. Ces tâches nécessitent généralement un raisonnement en plusieurs étapes pour réussir la tâche.
    Exemple : « Si vous suivez ces instructions, revenez-vous au point de départ ? Tourner à gauche. Tournez à droite. Faites 5 étapes. Faites 4 étapes. Faire demi-tour. Faites 9 étapes. Options : — Oui — Non » [4]

L'annonce récente d'Anthropic concernant Claude-3 montre que son modèle Opus surpasse GPT-4 en tant que modèle leader sur la majorité des benchmarks courants. Par exemple, Claude-3 Opus a obtenu un score de 86,8 % sur MMLU, dépassant de peu GPT-4 qui a obtenu un score de 86,4 %. Claude-3 Opus a également obtenu 95 % sur GSM8K et 86,8 % sur BBH, contre respectivement 92 % et 83,1 % pour GPT-4. [1].

Bien que les performances de modèles comme GPT-4 et Claude sur ces benchmarks soient impressionnantes, ces tâches ne sont pas toujours représentatives des types de défis que les entreprises souhaitent résoudre. De plus, de plus en plus de recherches suggèrent que les modèles mémorisent les questions de référence plutôt que de les comprendre. Cela ne signifie pas nécessairement que les modèles ne sont pas capables de se généraliser à de nouvelles tâches, nous voyons les LLM et SLM réaliser des exploits incroyables chaque jour, mais cela signifie que nous devrions reconsidérer la façon dont nous évaluons, notons et promouvons les modèles.

Dans quelle mesure les modèles linguistiques qui excellent sur les benchmarks sont-ils fiables ?

Des recherches menées par Microsoft, l'Institute of Automation CAS et l'Université des sciences et technologies de Chine démontrent que lorsqu'on pose des questions de référence reformulées ou modifiées à divers modèles de langage, les modèles fonctionnent bien moins bien que lorsqu'on leur pose la même question de référence sans modification. Pour les besoins de leur recherche, comme indiqué dans l'article DyVal 2, les chercheurs ont pris des questions de référence comme MMLU et les ont modifiées soit en reformulant la question, en ajoutant une réponse supplémentaire à la question, en reformulant les réponses, en permutant les réponses ou en ajoutant contenu supplémentaire à la question. En comparant les performances du modèle sur l'ensemble de données « vanille » par rapport aux questions modifiées, ils ont constaté une diminution des performances, par exemple GPT-4 a obtenu un score de 84,4 aux questions MMLU vanille et de 68,86 aux questions MMLU modifiées. [5].

Source : DyVal2, performances du modèle sur les benchmarks Vanilla par rapport au benchmark Probing

De même, une recherche du Département d'informatique de l'Université d'Arizona indique qu'il existe un quantité importante de contamination des données dans les modèles de langage [6]. Cela signifie que les informations contenues dans les tests de référence font désormais partie des données de formation des modèles, ce qui rend les scores de référence non pertinents puisque les modèles sont testés sur les informations sur lesquelles ils sont formés.

Des recherches supplémentaires menées par l'Université Fudan, l'Université Tongji et Alibaba mettent en évidence la nécessité d'évaluations dynamiques auto-évolutives pour les agents d'IA afin de lutter contre les problèmes de contamination des données et de mémorisation des références. [7]. Ces repères dynamiques aideront à empêcher les modèles de mémoriser ou d'apprendre des informations pendant la pré-formation sur lesquelles ils seraient ensuite testés. Bien qu'un afflux récurrent de nouveaux benchmarks puisse créer des défis lors de la comparaison d'un modèle plus ancien à un modèle plus récent, idéalement, ces benchmarks atténueront les problèmes de contamination des données et permettront d'évaluer plus facilement dans quelle mesure un modèle comprend les sujets de formation.

Lors de l'évaluation de la capacité du modèle pour un problème particulier, nous devons comprendre à la fois dans quelle mesure le modèle comprend les informations apprises lors de la pré-formation et dans quelle mesure il peut se généraliser à de nouvelles tâches ou concepts au-delà de ses données de formation.

Les modèles linguistiques et les agents d’IA peuvent-ils traduire les connaissances en action ?

Alors que nous cherchons à utiliser des modèles en tant qu'agents d'IA pour effectuer des actions en notre nom, qu'il s'agisse de réserver des vacances, de rédiger un rapport ou de rechercher de nouveaux sujets pour nous, nous aurons besoin de critères de référence ou de mécanismes d'évaluation supplémentaires capables d'évaluer la fiabilité et l'exactitude des données. ces agents. La plupart des entreprises qui cherchent à exploiter la puissance des modèles de base nécessitent de donner au modèle accès à une variété d'outils intégrés à leurs sources de données uniques et exigent que le modèle raisonne et planifie quand et comment utiliser efficacement les outils à leur disposition. Ces types de tâches ne sont pas représentés dans de nombreux benchmarks LLM traditionnels.

Source : AgentVerse, résultats d'une équipe d'agents par rapport à un agent unique sur une tâche de développement logiciel impliquant l'appel d'outils et l'exécution de code

Pour combler cette lacune, de nombreuses équipes de recherche créent leurs propres références et cadres qui évaluent les performances des agents sur des tâches impliquant l'utilisation d'outils et des connaissances en dehors des données de formation du modèle. Par exemple, les auteurs d'AgentVerse ont évalué dans quelle mesure les équipes d'agents pouvaient effectuer des tâches réelles impliquant la planification d'événements, le développement de logiciels et le conseil. Les chercheurs ont créé leur propre ensemble de 10 tâches de test qui ont été évaluées manuellement pour déterminer si les agents effectuaient la bonne série d'actions, utilisaient les outils appropriés et obtenaient un résultat précis. Ils ont constaté que les équipes d'agents qui opéraient selon un cycle avec des étapes définies pour le recrutement des agents, la planification des tâches, l'exécution indépendante des tâches et l'évaluation ultérieure conduisaient à des résultats supérieurs à ceux des agents indépendants. [8].

Au-delà des modalités uniques et dans le monde réel. Pourquoi les modèles linguistiques (ou modèles de base) devraient-ils maîtriser plus que le texte ?

À mon avis, les architectures et les benchmarks d'agents émergents constituent un grand pas en avant vers la compréhension de l'efficacité des modèles de langage sur des problèmes orientés métier, mais une limitation est que la plupart sont encore axés sur le texte. Alors que nous considérons le monde et la nature dynamique de la plupart des emplois, nous aurons besoin de systèmes et de modèles d'agents qui évaluent ensemble les performances sur les tâches basées sur du texte ainsi que sur les tâches visuelles et auditives. L'ensemble de données AlgoPuzzleVQA est un exemple d'évaluation de modèles sur leur capacité à raisonner, lire et interpréter visuellement des énigmes mathématiques et algorithmiques. [9].

Source : Les modèles linguistiques sont-ils des prodiges des puzzles ? Exemples de questions de l'ensemble de données AlgoPuzzleVQA

Même si les entreprises ne sont peut-être pas intéressées par la capacité d’un modèle à résoudre une énigme, cela reste un pas dans la bonne direction pour comprendre dans quelle mesure les modèles peuvent raisonner sur des informations multimodales.

Conclusion

Alors que nous continuons à adopter des modèles de base dans nos routines quotidiennes et nos efforts professionnels, nous avons besoin d’options d’évaluation supplémentaires qui reflètent les problèmes du monde réel. Les benchmarks dynamiques et multimodaux en sont un élément clé. Cependant, à mesure que nous introduisons des cadres et des architectures d'agents supplémentaires avec de nombreux agents d'IA collaborant pour résoudre un problème, l'évaluation et la comparaison entre modèles et cadres deviennent encore plus difficiles. La véritable mesure des modèles de base ne réside pas dans leur capacité à vaincre les tests standardisés, mais dans leur capacité à comprendre, à s’adapter et à agir dans le monde réel complexe et souvent imprévisible. En modifiant la façon dont nous évaluons les modèles linguistiques, nous mettons ces modèles au défi d'évoluer d'intellects basés sur des textes et de savants de référence vers des penseurs complets capables de relever des défis multiformes (et multimodaux).

Vous souhaitez discuter davantage ou collaborer ? Contactez-nous LinkedIn!

About the author

smirow

Leave a Comment