Das Team des Linzer Start-ups NXAI um KI-Pionier Sepp Hochreiter hat eine wissenschaftliche Arbeit veröffentlicht, in der es eine leistungsfähigere Architektur für Sprachmodelle vorstellt, die der bisher üblichen Transformer-Architektur überlegen sein soll. Die sogenannten Extended LSTM-Modelle (xLSTM) sollen reine Transformer-Modelle in zahlreichen Benchmarks übertreffen und deutlich effizienter sein.
Werbung
Long Short-Term Memory (LSTM) ist eine spezielle Architektur für neuronale Netze, die auch die Grundlage von KI-Modellen bilden. Die KI-Forscher Sepp Hochreiter und Jürgen Schmidhuber entwickeln sie seit den 1990er Jahren, um sequentielle Daten wie Texte zu verarbeiten. Im Gegensatz zu tiefen Faltungs-Neuronalen Netzen, die auf Bilder spezialisiert sind, verfügen LSTMs über eine Art eingebautes Kurzzeitgedächtnis. Daher können sie beim Bilden oder Vervollständigen von Sätzen neueren Kontext berücksichtigen. LSTMs waren die Grundlage für den Erfolg von Sparassistenten wie Siri und Alexa und verbesserten auch die maschinelle Übersetzung deutlich; Allerdings waren die Ergebnisse noch weit vom menschlichen Sprach- und Formulierungsniveau entfernt.
Riesige Wortwolke
Die Transformer-Architektur mit ihrem bekanntesten Protagonisten ChatGPT betrat erstmals diese Sphären. Transformer verfügen über einen Aufmerksamkeitsmechanismus, durch den Wörter und Wortteile so kodiert werden, dass häufig verwendete Begriffe im Kontext nahe beieinander liegen. Einen so aufbereiteten Text kann man sich als riesige, sortierte Wortwolke vorstellen. Aus diesem Grund können sich Transformer deutlich größere Textmengen merken und weiter auseinander liegende Kontexte erfassen. Das sogenannte xLSTM-Modell soll laut NXAI, das eine Forschungskooperation mit der Johannes Keppler Universität in Linz durchführt, nun das leistungsfähigste Large Language Model (LLM) der Welt werden.
xLSTM ist eigentlich eine Kombination aus Transformatortechnologie und langem Kurzzeitgedächtnis. Dementsprechend lautet die Forschungsfrage des zugehörigen Artikels: „Wie weit können wir in der Sprachmodellierung kommen, wenn wir LSTMs auf Milliarden von Parametern skalieren und dabei die neuesten Techniken moderner LLMs verwenden, aber die bekannten Einschränkungen von LSTMs abmildern?“ Das Ergebnis sei eine Architektur, die hinsichtlich Leistung und Skalierbarkeit im Vergleich zu den derzeit verwendeten Transformatoren besser abschneide, schreiben die Forscher.
xLSTM hat Potenzial
Exponentielles Gating wird in der Tiefe durchgeführt, verschiedene Gates bilden das Kurzzeitgedächtnis, das lange anhält – daher der Name des Modells. Zudem wurde die Speicherstruktur im Vergleich zum klassischen LSTM geändert. Das entsprechende Papier wurde veröffentlicht. Außerdem kommt es zu dem Schluss: „xLSTM hat das Potenzial, andere Bereiche des Deep Learning maßgeblich zu beeinflussen – etwa Reinforcement Learning, Zeitreihenvorhersage oder die Modellierung physikalischer Systeme.“
Allerdings muss es sein Potenzial noch in weiteren und detaillierteren Benchmarks unter Beweis stellen. Für erste Tests wurde es mit 15 Milliarden und 300 Milliarden Token aus dem SlimPajama-Datensatz trainiert und mit mehreren Transformer-Modellen verglichen, darunter Llama und GPT-3. Wie sich xLSTM im Vergleich zu den High-End-LLMs GPT-4, GPT-4V oder Google Gemini schlagen würde, bleibt abzuwarten. In ihrem Beitrag geben die Autoren selbst zu, dass noch ein umfangreicher Optimierungsprozess notwendig sei, damit die xLSTM-Architektur ihr volles Potenzial ausschöpfen könne.
Hochreiter, ein deutscher KI-Pionier, der in Österreich forscht, schreibt bei X: „Mit NXAI haben wir begonnen, unser eigenes europäisches LLM aufzubauen. Ich bin sehr stolz auf mein Team.“
Auch Hochreiter war als Student und sein damaliger Dozent Jürgen Schmidhuber an der Entstehung der Transformer-Architektur beteiligt. Letzterer trat beim diesjährigen OMR-Festival auf und sprach mit Jonas Andrulis von Aleph Alpha über seine Einschätzung des KI-Hypes.
auch lesen
(emw)