Wie Sprachmodelle wirklich funktionieren — ein ehrlicher Blick unter die Haube

2017 veränderte ein Paper die Welt: „Attention Is All You Need“. Acht Google-Forschende beschrieben eine neue Architektur für neuronale Netze — den Transformer.

Fünf Jahre später sprach die Welt von ChatGPT. Das ist kein Zufall.

Was vor Sprachmodellen war

Frühe KI-Systeme für Sprache arbeiteten sequenziell: Wort für Wort, in einer Richtung. Das war langsam und verlor bei langen Texten den Faden.

Dann kamen Transformer. Ihr entscheidender Trick: Attention — ein Mechanismus, der es dem Modell erlaubt, für jedes Wort im Text gleichzeitig zu berechnen, welche anderen Wörter am wichtigsten sind.

„Bank“ in „Ich sitze auf der Bank“ und „Bank“ in „Die Bank hat meinen Kredit abgelehnt“: Ein Transformer kann diesen Unterschied modellieren, weil er den Kontext des gesamten Satzes auf einmal berücksichtigt.

Schema eines neuronalen Netzes — Schichten und Verbindungen zwischen Datenpunkten

Training: Was es bedeutet, wenn KI „lernt“

Ein großes Sprachmodell wird in zwei Phasen aufgebaut:

1. Pre-Training Das Modell liest enorme Mengen Text — Teile des Internets, Bücher, Wikipedia, wissenschaftliche Artikel. Seine einzige Aufgabe: das nächste Wort vorhersagen.

Klingt banal. Aber um das nächste Wort gut vorherzusagen, muss das Modell implizit Grammatik lernen, Fakten über die Welt, Schreibstile, Argumentationsstrukturen.

Dabei entstehen sogenannte Parameter — Milliarden von Zahlenwerten, die das „Wissen“ des Modells enkodieren. Bei vielen aktuellen Modellen ist die genaue Zahl dieser Parameter nicht öffentlich bekannt.

2. Fine-Tuning mit menschlichem Feedback (RLHF) Nach dem Pre-Training wird das Modell verfeinert: Menschen bewerten Antworten. Das Modell lernt, welche Antworten bevorzugt werden — hilfreicher, sicherer, weniger offensiv.

Das ist der Grund, warum ChatGPT höflicher wirkt als rohe Textgeneratoren.

„Ein großes Sprachmodell ist wie eine destillierte Version unserer kollektiven Schriftkultur — mit allem, was darin gut und schlecht ist.“ — Andrej Karpathy, ehemaliger KI-Direktor bei Tesla

Warum KI trotzdem halluziniert

Das Modell wurde trainiert, plausiblen Text zu erzeugen — nicht notwendigerweise wahren. Wenn es keine gesicherte Information hat, erfindet es eine, die sprachlich konsistent wirkt.

Das ist kein Bug. Es ist die Konsequenz aus dem Trainingsziel.

Deshalb können KI-Systeme falsche Fakten mit perfekter Grammatik und selbstsicherem Tonfall präsentieren. Die Sprache signalisiert keine Unsicherheit, auch wenn das Modell keine verlässliche Grundlage hat.

Skalierung und ihre Grenzen

Seit 2017 zeigt sich oft: Größere Modelle, mehr Daten und mehr Rechenleistung führen zu besseren Ergebnissen. Aber dieser Zusammenhang ist weder kostenlos noch unbegrenzt.

Aber Skalierung hat Grenzen:

Energieverbrauch — das Training großer Modelle verbraucht enorme Mengen Strom
Datenmangel — qualitativ hochwertiger Trainingstext ist begrenzt
Emergente Risiken — ab einer gewissen Größe zeigen Modelle Verhaltensweisen, die beim Training nicht vorhergesehen wurden

Das sind die Fragen, mit denen die KI-Forschung gerade ringt — ohne klare Antworten.

Was das für Nutzerinnen und Nutzer bedeutet

Man muss keine Transformer verstehen, um KI-Tools sinnvoll zu nutzen. Aber ein Grundverständnis hilft:

Warum KI manchmal falsch liegt (Trainingsdaten, keine Echtzeit-Verbindung)
Warum sie so überzeugend klingt (optimiert auf plausiblen Text)
Warum menschliche Kontrolle nicht optional ist

Technik zu verstehen ist keine Spielerei. Es ist die Grundlage für mündigen Umgang.

Wollen Sie diese Zusammenhänge für Ihr Team aufbereiten? Genau das ist Inhalt meiner technischen Einführungsworkshops — ohne Vorkenntnisse, mit konkretem Praxisbezug.