Artificial Intelligence (AI)

Can Large Language Models (LLMs) be used to label data? | by Maja Pavlovic | Apr, 2024

Written by smirow

Eingabeaufforderung: keine oder wenige Schüsse

Aussagekräftige Antworten von LLMs zu bekommen, kann eine kleine Herausforderung sein. Wie können Sie also einen LLM am besten dazu ermutigen, Ihre Daten zu kennzeichnen? Wie wir in Tabelle 1 sehen können, untersuchten die oben genannten Studien den Anreiz, null Schüsse oder wenige Schüsse oder beides zu geben. Null Schuss Die Eingabeaufforderung erwartet eine Antwort vom LLM, ohne dass Beispiele in der Eingabeaufforderung gesehen wurden. Während ein paar Schüsse Die Eingabeaufforderung enthält mehrere Beispiele in der Eingabeaufforderung selbst, damit das LLM weiß, wie eine gewünschte Antwort aussieht:

Fordert null oder wenige Aufnahmen auf | Beispielquelle (amitsangani) | Bild vom Autor

In den Studien gibt es unterschiedliche Ansichten darüber, welcher Ansatz die besten Ergebnisse liefert. Einige greifen für ihre Aufgaben auf Eingabeaufforderungen mit wenigen Schüssen zurück, andere auf Eingabeaufforderungen mit null Schüssen. Möglicherweise möchten Sie herausfinden, was für Ihren speziellen Anwendungsfall und Ihr Modell am besten funktioniert.

Wenn Sie sich fragen, wie Sie mit guten Anreizen beginnen können, haben Sander Schulhoff und Shyamal H Anadkat erstellt LearnPrompt der Ihnen bei den Grundlagen, aber auch bei fortgeschritteneren Techniken helfen kann.

Eingabeaufforderung: Empfindlichkeit

LLMs reagieren empfindlich auf geringfügige Änderungen an der Eingabeaufforderung. Das Ändern eines Wortes in Ihrer Eingabeaufforderung kann sich auf die Antwort auswirken. Wenn Sie diese Variabilität bis zu einem gewissen Grad berücksichtigen möchten, können Sie es wie eine Studie angehen. [3]. Zunächst ließen sie einen Aufgabenexperten die ersten Hinweise geben. Mithilfe von GPT generieren sie dann vier weitere mit ähnlicher Bedeutung und mitteln die Ergebnisse über die fünf Eingabeaufforderungen. Sie könnten auch darüber nachdenken, von handgeschriebenen Eingabeaufforderungen Abstand zu nehmen und sie durch Signaturen zu ersetzen, damit DSPy die Eingabeaufforderung für Sie optimiert, wie im Blogbeitrag von Leonie Monigatti beschrieben.

Modellauswahl

Welches Modell sollten Sie für die Beschriftung Ihres Datensatzes wählen? Es sind einige Faktoren zu berücksichtigen. Lassen Sie uns kurz auf einige wichtige Überlegungen eingehen:

  • Open Source oder Closed Source: Entscheiden Sie sich für das neueste und leistungsstärkste Modell? Oder ist Ihnen die Open-Source-Anpassung wichtiger? Sie müssen über Dinge wie Ihr Budget, Leistungsanforderungen, Anpassungs- und Eigentümerpräferenzen, Sicherheitsanforderungen und Anforderungen an den Community-Support nachdenken.
  • Leibwächter: LLMs verfügen über Sicherheitsvorkehrungen, um zu verhindern, dass sie mit unerwünschten oder schädlichen Inhalten antworten. Wenn es sich bei Ihrer Aufgabe um sensible Inhalte handelt, kann es sein, dass Models sich weigern, Ihre Daten zu kennzeichnen. Darüber hinaus unterscheiden sich LLMs hinsichtlich ihres Schutzniveaus. Sie müssen sie also erkunden und vergleichen, um dasjenige zu finden, das am besten zu Ihrer Aufgabe passt.
  • Modellgröße: LLMs gibt es in verschiedenen Größen und größere Modelle können eine bessere Leistung erbringen, erfordern aber auch mehr Rechenressourcen. Wenn Sie Open-Source-LLMs bevorzugen und nur über begrenzte Berechnungen verfügen, sollten Sie eine Quantifizierung in Betracht ziehen. Bei Closed-Source-Modellen sind mit größeren Modellen derzeit Kosten pro Eingabeaufforderung verbunden. Aber ist größer immer besser?

Modellvoreingenommenheit

Laut einer Studie [3] größer, geeignet für Anleitungen³ Modelle weisen eine hervorragende Etikettierleistung auf. Die Studie bewertet jedoch keine Verzerrungen in ihren Ergebnissen. Eine andere Forschungsarbeit zeigt, dass die Voreingenommenheit tendenziell mit der Größe und mehrdeutigen Kontexten zunimmt. Mehrere Studien warnen auch vor linken Tendenzen und einer eingeschränkten Fähigkeit, die Ansichten von Minderheitengruppen (z. B. älteren Menschen oder unterrepräsentierten Religionen) genau darzustellen. Insgesamt weisen aktuelle LLMs erhebliche kulturelle Vorurteile auf und reagieren mit stereotypen Ansichten über Minderheiten. Abhängig von Ihrer Aufgabe und ihren Zielen sind dies Elemente, die Sie in jeder Phase Ihres Projekts berücksichtigen müssen.

„Standardmäßig orientieren sich LLM-Antworten eher an den Meinungen bestimmter Bevölkerungsgruppen, beispielsweise denen in den Vereinigten Staaten und einigen europäischen und südamerikanischen Ländern. » – Zitat aus einer Studie [2]

Modellparameter: Temperatur

Ein in den meisten Studien in Tabelle 1 häufig erwähnter Parameter ist der Temperaturparameter, der die reguliert “Kreativität” der LLM-Ergebnisse. Studien [5] Und [6] Experimentieren Sie mit höheren und niedrigeren Temperaturen und stellen Sie fest, dass LLMs bei niedrigeren Temperaturen eine konsistentere Reaktion aufweisen, ohne dass die Genauigkeit darunter leidet. Deshalb empfehlen sie niedrigere Werte für Anmerkungsaufgaben.

Sprachliche Grenzen

Wie wir in Tabelle 1 sehen können, messen die meisten Studien die Kennzeichnungsleistung von LLMs in englischsprachigen Datensätzen. Studie [7] untersucht Aufgaben in Französisch, Niederländisch und Englisch und stellt einen erheblichen Leistungsabfall bei nicht-englischen Sprachen fest. Momentan, LLMs funktionieren besser auf Englisch, aber es sind Alternativen im Gange, um ihre Vorteile auf nicht englischsprachige Benutzer auszudehnen. Zu zwei dieser Initiativen gehört: YugoGPT (für Serbisch, Kroatisch, Bosnisch und Montenegrinisch) von Aleksa Gordić & Aya (101 verschiedene Sprachen) von Kohärent für KI.

Menschliches Denken und Verhalten (Erklärungen in natürlicher Sprache)

Über die bloße Anforderung eines Labels beim LLM hinaus können wir auch eine Erklärung des gewählten Labels einholen. Eine der Studien [10] stellt fest, dass GPT Erklärungen liefert, die mit denen von Menschen vergleichbar, wenn nicht sogar klarer, sind. Forscher von Carnegie Mellon und Google weisen jedoch darauf hin, dass LLMs noch nicht in der Lage sind, menschliche Entscheidungsfindung zu simulieren und bei ihren Entscheidungen kein menschliches Verhalten zeigen. Sie stellen fest, dass anweisungsangepasste Modelle noch weniger menschenähnliches Verhalten zeigen und argumentieren, dass LLMs nicht verwendet werden sollten, um Menschen in der Annotationspipeline zu ersetzen. Ich würde in dieser Phase auch davor warnen, Erklärungen in natürlicher Sprache zu verwenden.

„Substitution untergräbt drei Werte: die Vertretung der Interessen der Teilnehmer; Einbindung und Befähigung der Beteiligten in den Entwicklungsprozess » — Zitat von Agnew (2023)

About the author

smirow

Leave a Comment