Gadgets and Devices

Warum ist KI so schlecht in der Rechtschreibung? Weil Bildgeneratoren eigentlich keinen Text lesen

Written by smirow

KIs sind leicht Schlagen Sie den SAT, schlagen Sie Schachgroßmeister und debuggen Sie Code, als wäre es nichts. Aber wenn man in der Rechtschreibprüfung eine KI gegen Mittelschüler antreten lässt, wird sie schneller eliminiert, als man per Übertragung sagen kann.

Trotz aller Fortschritte, die wir in der KI gesehen haben, kann sie immer noch nicht buchstabieren. Wenn Sie Text-zu-Bild-Generatoren wie DALL-E bitten, ein Menü für ein mexikanisches Restaurant zu erstellen, werden Ihnen inmitten eines Meers von Texten möglicherweise köstliche Elemente wie „Taao“, „Burto“ und „Enchida“ auffallen. Bildgeneratoren wie DALL-E. Anderes Kauderwelsch.

Und obwohl ChatGPT in der Lage ist, Ihre Artikel für Sie zu schreiben, ist es komisch inkompetent, wenn Sie es bitten, ein Wort mit 10 Buchstaben ohne die Buchstaben „A“ oder „E“ (er sagte „hood“) zu finden. Als ein Freund unterdessen versuchte, die KI von Instagram zu nutzen, um einen Aufkleber mit der Aufschrift „Neuer Beitrag“ zu erstellen, erstellte er eine Grafik, die etwas zu sagen schien, was wir auf TechCrunch, einer Familienwebsite, nicht wiederholen dürfen.

Bildnachweis: Microsoft Designer (DALL-E 3)

„Bildgeneratoren funktionieren bei Objekten wie Autos und Gesichtern von Menschen tendenziell viel besser, bei kleineren Objekten wie Fingern und Handschriften jedoch weniger“, sagte Asmelash Teka Hadgu, Mitbegründerin von Lesan und Mitglied des DAIR-Instituts.

Die Technologie hinter Bild- und Textgeneratoren ist unterschiedlich, aber beide Modelltypen haben ähnliche Schwierigkeiten mit Details wie der Rechtschreibung. Bildgeneratoren verwenden typischerweise Diffusionsmodelle, die ein Bild aus Rauschen rekonstruieren. Wenn es um Textgeneratoren geht, sehen große Sprachmodelle (LLMs) möglicherweise so aus, als würden sie Ihre Eingabeaufforderungen wie ein menschliches Gehirn lesen und darauf reagieren – tatsächlich verwenden sie jedoch komplexe Mathematik, um das Textmodell abzugleichen. lädt es mit der seines latenten Raums ein . Lassen Sie ihn das Muster mit einer Antwort fortsetzen.

„Diffusionsmodelle, die neuesten Algorithmen zur Bilderzeugung, rekonstruieren eine gegebene Eingabe“, sagte Hagdu gegenüber TechCrunch. „Wir können davon ausgehen, dass die Schreibvorgänge in einem Bild nur einen sehr, sehr kleinen Teil ausmachen, sodass der Bildgenerator Muster lernt, die mehr dieser Pixel abdecken.“

Algorithmen werden dazu angeregt, etwas nachzubilden, das so aussieht, wie sie es in ihren Trainingsdaten sehen, aber sie kennen nicht von Haus aus die Regeln, die wir für selbstverständlich halten – dass „Hallo“ nicht „heelllooo“ geschrieben wird und dass menschliche Hände im Allgemeinen fünf Finger haben .

„Selbst letztes Jahr waren alle diese Modelle wirklich schlecht an den Fingern, und es ist genau das gleiche Problem wie der Text“, sagte Matthew Guzdial, ein KI-Forscher und Assistenzprofessor an der University of Alberta. „Sie werden vor Ort wirklich gut, wenn man sich also eine Hand mit sechs oder sieben Fingern ansieht, könnte man sagen: ‚Oh wow, das sieht aus wie ein Finger.‘ Ebenso könnte man bei generiertem Text sagen, dass er wie ein „H“ und wie ein „P“ aussieht, aber sie sind wirklich schlecht darin, alles zusammen zu strukturieren.

Ingenieure können diese Probleme abmildern, indem sie ihre Datensätze mit Trainingsmodellen ergänzen, die speziell darauf ausgelegt sind, der KI beizubringen, wie Hände aussehen sollten. Experten gehen jedoch nicht davon aus, dass sich diese Rechtschreibprobleme so schnell von selbst lösen werden.

Bildnachweis: Adobe Firefly

„Sie können sich etwas Ähnliches vorstellen: Wenn wir einfach eine ganze Reihe von Texten erstellen, können sie einem Modell beibringen, zu erkennen, was gut und was schlecht ist, und das könnte die Sache ein wenig verbessern. Aber leider ist die englische Sprache wirklich kompliziert“, sagte Guzdial gegenüber TechCrunch. Und das Problem wird noch komplexer, wenn man bedenkt, wie viele verschiedene Sprachen die KI lernen muss, um zu arbeiten.

Einige Vorlagen, wie Adobe Firefly, lernen, überhaupt keinen Text zu generieren. Wenn Sie etwas Einfaches wie „Speisekarte in einem Restaurant“ oder „Werbetafel mit Werbung“ eingeben, erhalten Sie das Bild eines leeren Papiers auf einem Esstisch oder einer weißen Werbetafel auf der Autobahn. Wenn Sie Ihre Eingabeaufforderung jedoch ausreichend detailliert formulieren, können Sie diese Leitplanken leicht umgehen.

„Man kann es sich fast so vorstellen, als würden sie Whac-A-Mole spielen, etwa: ‚Okay, viele Leute beschweren sich über unsere Hände – wir werden etwas Neues hinzufügen, nur für die Hände des nächsten Models‘.“ und so weiter. und so weiter“, sagte Guzdial. „Aber SMS zu schreiben ist viel schwieriger. Aus diesem Grund kann nicht einmal ChatGPT wirklich buchstabieren.“

Auf Reddit, YouTube und In einem aktuellen Video, das als „die schnelle Reise eines Ingenieurshelden“ bezeichnet wurde, versucht jemand mühsam, ChatGPT durch die Erstellung von ASCII-Grafiken mit der Aufschrift „Honda“ zu führen. Letztendlich gelingt es ihnen, aber nicht ohne Odyssee-Prüfungen und -Wirrungen.

„Eine Hypothese, die ich habe, ist, dass sie in ihrer Ausbildung nicht viel ASCII-Kunst hatten“, sagte Hagdu. „Das ist die einfachste Erklärung.“

Aber tief im Inneren verstehen LLMs einfach nicht, was Buchstaben sind, obwohl sie Sonette in Sekundenschnelle schreiben können.

„LLMs basieren auf dieser Transformer-Architektur, die insbesondere keinen Text liest. Wenn Sie eine Eingabeaufforderung eingeben, wird sie in eine Kodierung übersetzt“, sagte Guzdial. „Wenn er das Wort „the“ sieht, hat er diese eine Codierung dessen, was „the“ bedeutet, aber er kennt „T“, „H“ und „E“ nicht.

Aus diesem Grund ist es in etwa der Hälfte der Fälle falsch, wenn Sie ChatGPT bitten, eine Liste mit Wörtern mit acht Buchstaben ohne „O“ oder „S“ zu erstellen. Er weiß eigentlich nicht, was ein „O“ oder „S“ ist (obwohl er Ihnen wahrscheinlich die Wikipedia-Geschichte des Buchstabens erzählen könnte).

Während diese DALL-E-Bilder von schlechten Restaurantmenüs lustig sind, sind die Mängel der KI nützlich, wenn es darum geht, Fehlinformationen zu erkennen. Wenn wir versuchen herauszufinden, ob ein fragwürdiges Bild real oder von der KI erzeugt ist, können wir viel lernen, indem wir uns Straßenschilder, T-Shirts mit Text, Seiten eines Buches oder alles andere ansehen, bei dem eine Reihe zufälliger Buchstaben das Synthetische verraten könnte Beschaffenheit eines Bildes. Ursprünge. Und bevor diese Modelle besser darin werden, Hände zu machen, könnte auch ein sechster (oder siebter oder achter) Finger ein Geschenk sein.

Aber, sagt Guzdial, wenn wir genau hinsehen, sind es nicht nur die Finger und die Rechtschreibung, bei denen die KI Fehler macht.

„Diese Modelle werfen ständig diese kleinen lokalen Probleme auf – wir sind nur in der einzigartigen Position, einige davon zu erkennen“, sagte er.

Bildnachweis: Adobe Firefly

Für den Durchschnittsbürger könnte beispielsweise ein KI-generiertes Bild eines Musikgeschäfts leicht glaubwürdig sein. Aber jemand, der sich ein wenig mit Musik auskennt, könnte das gleiche Bild sehen und bemerken, dass manche Gitarren sieben Saiten haben oder dass die schwarzen und weißen Tasten eines Klaviers nicht den richtigen Abstand haben.

Obwohl sich diese KI-Modelle in alarmierendem Tempo verbessern, sind diese Tools immer noch mit solchen Problemen konfrontiert, die die Leistungsfähigkeit der Technologie einschränken.

„Das ist ein konkreter Fortschritt, daran besteht kein Zweifel“, sagte Hagdu. „Aber der Hype, den diese Technologie auslöst, ist einfach wahnsinnig.“

About the author

smirow

Leave a Comment