Artificial Intelligence (AI)

Large Language Models Just Got A Whole Lot Smaller | by Ari Joury, PhD | Mar, 2024

Written by smirow

Und wie es für Software-Startups bahnbrechend sein könnte

Ari Journey, Ph.D.
Auf dem Weg zur Datenwissenschaft

15 Minuten Lesezeit

vor 15 Stunden

LLMs werden kleiner und effizienter! Bild inspiriert von Benjamin Marie

Dieses Stück wurde gemeinsam mit geschrieben David Meiborg.

TLDR: Large Language Models (kurz LLM) sind derzeit riesig, teuer in der Ausführung und haben eine erheblicher CO2-Fußabdruck. Jüngste Fortschritte bei der Modellkomprimierung und Optimierungsmethoden auf Systemebene könnten jedoch die LLM-Inferenz verbessern. Insbesondere ein Ansatz, der ternär strukturierte Parameter verwendet, hat das Potenzial, einen Großteil der teuren Matrixmultiplikation zu umgehen, die heute die Norm ist. Dies hat spannende Auswirkungen auf Hardware-Startups, die spezielle Chips herstellen, aber auch auf Software-Startups, die ihre eigenen LLMs verwenden oder individuell erstellen. Startups, die ihre Kunden bei der Einführung von LLMs unterstützen, könnten ebenfalls mehr Geschäfte machen.

Die großen Sprachmodelle sind heute großartig. Wirklich groß. Wenn Sie ein LlaMa-2-70B-Modell laden möchten, benötigen Sie 140 GB VRAM (das sind 70 Milliarden Parameter multipliziert mit 2 Bytes pro Parameter). Zum Vergleich: GPUs wie die NVIDIA RTX 3090 oder 4090 verfügen nur über 24 GB VRAM, ein Bruchteil dessen, was man benötigen würde.

Es gibt einige Problemumgehungen bei der Quantisierung, diese sind jedoch meist umständlich. Es ist wahrscheinlich, dass Ihre GPU noch 15 Stunden lang heiß läuft, bis das Modell geladen wird. Ganz zu schweigen davon, dass Sie noch verfügbaren Speicher für die Inferenz, also für die Bereitstellung des Modells, benötigen.

Der Einsatz aktueller LLMs ist daher teuer: Zur Aufrechterhaltung des Modells sind in der Regel mehrere High-End-GPUs erforderlich, zudem müssen die mit der Inferenz verbundenen Energiekosten berücksichtigt werden.

Aus diesem Grund wird viel geforscht, um Techniken anzuwenden, die LLMs kleiner und damit kostengünstiger auf kleinerer Hardware zu betreiben. Dies ist in den meisten Fällen ein schwieriger Kompromiss, da eine Reduzierung der Größe von LLMs normalerweise Auswirkungen auf deren Qualität hat. Es kann schwierig sein, den Punkt zu finden, an dem die Kosten dem Nutzen entsprechen.

In diesem Artikel geben wir einen Überblick über vielversprechende Optimierungsansätze, erläutern einen aktuellen Fortschritt von Microsoft-Forschern, geben einen kurzen Überblick über innovative Startups im Bereich „effektiver LLMs“ und ziehen einige allgemeine Implikationen für Startups, die im LLM-Ökosystem tätig sind.

About the author

smirow

Leave a Comment