Artificial Intelligence (AI)

Mamba: SSM, Theory, and Implementation in Keras and TensorFlow | by Vedant Jumle | Mar, 2024

Written by smirow

Verstehen Sie, wie SSM und Mamba funktionieren und wie Sie mit der Implementierung in Keras und TensorFlow beginnen.

Juule Vedant
Auf dem Weg zur Datenwissenschaft
Quelle: AI Generate (SDXL)

Der am 1. Dezember 2023 auf arXiv eingereichte Artikel mit dem Titel „Mamba: Linear-Time Sequence Modeling with Selective State Spaces“ bietet einen interessanten Ansatz zur Sequenzmodellierung. Die Autoren – Albert Gu, Tri Dao – stellten „Mamba“ vor, das „selektive“ räumliche Zustandsmodelle (SSM) verwendete, um Ergebnisse zu erzielen, die mit der Leistung des mittlerweile allgegenwärtigen Transformer-Modells mithalten können.

Transformer erfreuen sich in jüngster Zeit mit dem Aufkommen großer Sprachmodelle (LLMs) wie LLaMa-2, GPT-4, Claude, Gemini usw. großer Beliebtheit, leiden jedoch unter dem Kontextfensterproblem. Das Problem mit Transformatoren liegt in ihrem Kern, dem Multi-Head-Aufmerksamkeitsmechanismus.

Das Hauptproblem bei der Mehrkopfaufmerksamkeit besteht darin, dass für eine Eingabesequenzlänge n die Zeitkomplexität und die Raumkomplexität um O(n²) skalieren. Dadurch wird die Länge des Popup-Fensters eines LLM begrenzt. Denn um es um das Zehnfache zu erhöhen, müssen wir die Hardwareanforderungen (einschließlich GPU-VRAM) um das Hundertfache erhöhen.

Mamba hingegen entwickelt sich daraus O(n)!, also linear.

Diagramm aus dem Mamba-Artikel zum Vergleich der FlashAttention- und Mamba-Ansätze (angezeigt durch Scan (unser) in den Bildunterschriften)[1]

Diese lineare Skalierung veranlasste Forscher zu Spekulationen, dass Mamba die Zukunft der Sequenzmodellierung sein könnte.

Der Kern des Mamba-Modells liegt im Konzept räumlicher Zustandsmodelle. Zustandsraummodelle wie Transformatoren und RNNs verarbeiten Informationssequenzen wie Text, Audiosignale, Videobilder, DNA-Sequenzen usw.

Zustandsraummodelle basieren auf der Idee, ein physikalisches System als eine Menge von Eingaben, Ausgaben und Variablen zu beschreiben. Diese Variablen sind: A B C D. Der SSM-Prozess umfasst die Berechnung von a interner Zustandsvektor h

About the author

smirow

Leave a Comment