Gadgets and Devices

Anthropogene Forscher zermürben die KI-Ethik mit wiederholten Fragen

Written by smirow

Wie bringt man eine KI dazu, eine Frage zu beantworten, die sie eigentlich nicht beantworten sollte? Es gibt viele solcher „Jailbreaking“-Techniken, und Anthropic-Forscher haben gerade eine neue entdeckt, bei der ein großes Sprachmodell davon überzeugt werden kann, Ihnen zu sagen, wie man eine Bombe baut, wenn Sie es von Anfang an mit ein paar Dutzend weniger schädlichen Fragen vorbereiten.

Sie bezeichnen diesen Ansatz als „wiederholtes Jailbreaking“ und haben sowohl einen Artikel darüber geschrieben als auch ihre Kollegen in der KI-Community darüber informiert, damit das Problem abgemildert werden kann.

Die Schwachstelle ist neu und resultiert aus dem vermehrten „Pop-up“ der neuesten LLM-Generation. Dabei handelt es sich um die Datenmenge, die sie im sogenannten Kurzzeitgedächtnis speichern können. Früher waren es nur ein paar Sätze, heute aber Tausende von Wörtern und sogar ganze Bücher.

Anthropic-Forscher haben herausgefunden, dass diese Modelle mit großen Pop-ups bei vielen Aufgaben tendenziell eine bessere Leistung erbringen, wenn es viele Beispiele für diese Aufgabe in der Eingabeaufforderung gibt. Wenn also die Eingabeaufforderung (oder das Bootstrap-Dokument, z. B. eine große Liste mit Quizfragen, die das Modell im Kontext hat) viele Quizfragen enthält, verbessern sich die Antworten mit der Zeit. Die Tatsache, dass es falsch gewesen sein könnte, wenn es die erste Frage gewesen wäre, und dass es richtig sein könnte, wenn es die hundertste Frage gewesen wäre.

Doch in einer unerwarteten Erweiterung dieses sogenannten „Lernens im Kontext“ werden Modelle auch „besser“ in ihrer Fähigkeit, unangemessene Fragen zu beantworten. Wenn Sie ihn also bitten, sofort eine Bombe zu bauen, wird er dies ablehnen. Aber wenn Sie ihn bitten, 99 andere, weniger schädliche Fragen zu beantworten und ihn dann bitten, eine Bombe zu bauen, ist die Wahrscheinlichkeit, dass er dem nachkommt, viel größer.

Bildnachweis: Anthropisch

Warum funktioniert es? Niemand versteht wirklich, was in dem Gewichtsgewirr eines LLM vor sich geht, aber es gibt eindeutig einen Mechanismus, der es ihm ermöglicht, sich auf das zu konzentrieren, was der Benutzer möchte, wie der Inhalt des Pop-ups zeigt. Wenn der Benutzer Anekdoten möchte, scheint er nach und nach eine latente Fragekraft zu aktivieren, indem er Dutzende von Fragen stellt. Und aus irgendeinem Grund passiert dasselbe, wenn Benutzer Dutzende unangemessener Antworten stellen.

Das Team hat seine Kollegen und sogar Konkurrenten bereits über diesen Angriff informiert und hofft, dass er „eine Kultur fördern wird, in der Exploits wie diese offen zwischen LLM-Anbietern und Forschern geteilt werden“.

Zur Abhilfe stellten sie fest, dass die Einschränkung des Popups zwar hilfreich war, sich aber auch negativ auf die Modellleistung auswirkte. Das kann ich nicht haben – also arbeiten sie an der Klassifizierung und Kontextualisierung von Abfragen, bevor sie auf das Modell zugreifen. Das bedeutet natürlich nur, dass Sie ein anderes Modell zum Narren halten müssen … aber an diesem Punkt ist mit einer Verschiebung des Fokus in Bezug auf die KI-Sicherheit zu rechnen.

About the author

smirow

Leave a Comment