Gadgets and Devices

Wie Anthropic einen Trick fand, um KI dazu zu bringen, Ihnen Antworten zu geben, die sie eigentlich nicht geben sollte

Written by smirow

Wenn man es baut, werden die Leute versuchen, es zu zerstören. Manchmal sogar Menschen Gebäude Das sind die Dinge, die ihn brechen. Dies ist der Fall bei Anthropic und seiner neuesten Forschung, die eine interessante Schwachstelle in der aktuellen LLM-Technologie aufzeigt. Wenn Sie mehr oder weniger bei einer Frage bleiben, können Sie die Leitplanken durchbrechen und am Ende mit großen Sprachmustern enden, die Ihnen Dinge sagen, die sie eigentlich nicht tun sollen. Zum Beispiel, wie man eine Bombe baut.

Angesichts der Fortschritte in der Open-Source-KI-Technologie könnten Sie natürlich Ihr eigenes LLM lokal erstellen und es einfach fragen, was Sie wollen, aber für Inhalte, die sich eher an die breite Öffentlichkeit richten, ist es eine Frage, über die es sich lohnt, nachzudenken. Das Schöne an der heutigen KI ist das rasante Tempo, mit dem sie voranschreitet und wie es uns als Spezies gelingt – oder auch scheitert –, besser zu verstehen, was wir aufbauen.

Wenn Sie mir diesen Gedanken gestatten, frage ich mich, ob wir weitere Fragen und Probleme der von Anthropic beschriebenen Art sehen werden, wenn LLMs und andere neue Arten von KI-Modellen intelligenter und größer werden. Was ich mir vielleicht wiederhole. Aber je näher wir einer allgemeineren künstlichen Intelligenz kommen, desto mehr sollte sie wie ein denkendes Wesen aussehen und nicht wie ein Computer, den wir programmieren können, oder? Wenn ja, fällt es uns dann möglicherweise schwerer, Grenzfälle so weit zu lösen, dass diese Arbeit nicht mehr durchführbar ist? Wie auch immer, lasst uns darüber reden, was Anthropic kürzlich geteilt hat.

About the author

smirow

Leave a Comment