Klassische Software ist ein Röntgenbild — du siehst die fehlerhafte Wenn-Dann-Bedingung und tippst mit dem Finger drauf. Bei großen Sprachmodellen liefert dieses Röntgengerät nur Rauschen. Wir wissen, was vorne reingeht und was hinten rauskommt. Dazwischen liegt eine massive Blackbox aus Mathematik. Diese Folge zerlegt sie und stellt am Ende die große Frage: Ist das wirklich nur Wortvorhersage?
Wir starten am rohen Anfang. Tokenisierung zerschneidet Text in kleine Bausteine — GPT-2 etwa nutzt ein Vokabular von 50.257 Tokens. Daraus werden Embeddings: hochdimensionale Vektoren mit bis zu 12.288 Dimensionen bei GPT-3. Bedeutung wird zur räumlichen Position. Die berühmten Wortgleichungen funktionieren tatsächlich — King minus Man plus Woman landet bei Queen, Italien minus Deutschland plus Hitler bei Mussolini. Das Modell rechnet Konzepte buchstäblich aus.
Doch ein statisches Embedding hat ein Problem: das englische Wort „mole“ (Maulwurf, Muttermal, chemische Einheit) wäre immer derselbe Punkt. Hier kommt die Attention-Mechanik ins Spiel — die eigentliche Revolution von 2017. Jedes Token wird in drei neue Vektoren aufgespalten: Query (Suchanfrage), Key (Etikett) und Value (Inhalt). Die Mathematik berechnet via Skalarprodukt, wie gut die Suchanfrage eines Wortes zu den Etiketten der anderen passt. Im Satz „eine flauschige blaue Kreatur“ wandert „Kreatur“ durch den Vektorraum in Richtung Fell und Farbe. Die Umgebung formt das Wort.
Wir klären, warum das Modell beim Training nicht in die Zukunft schauen darf — Causal Masking setzt zukünftige Verbindungen auf negativ unendlich, die Softmax macht daraus exakt null. Information fließt strikt von der Vergangenheit in die Gegenwart. Anschließend geht der kontextualisierte Vektor durch ein Multilayer Perceptron mit GELU-Aktivierung. GPT-3 stapelt 96 solcher Schichten mit dutzenden parallelen Attention Heads — das ergibt die berühmten 175 Milliarden Parameter.
Spannend wird es bei der Universalität dieser Architektur. Whisper macht Audio-Spektrogramme zu Tokens, Vision Transformer zerschneiden Bilder in 16×16-Pixel-Kacheln, BERT nutzt Masked Language Modeling für bidirektionale Klassifizierung. Für die KI ist ein Sonnenuntergang, ein Podcast und ein Goethe-Gedicht tief drin dasselbe — Sequenzen von Vektoren, die durch Matrizen fließen.
Die zweite Hälfte ist der großen philosophischen Debatte gewidmet. Auf der einen Seite das Stochastic Parrot-Paper von Emily Bender und Timnit Gebru (2021): LLMs mappen nur linguistische Formen ohne echte Bedeutung — wie ein Papagei, der menschliche Laute perfekt nachplappert. Halluzinationen und Shortcut Learning belegen den fehlenden Weltbezug. Wir streifen auch den historischen Kontext: das Paper hat bei Google so gekracht, dass Gebru das Unternehmen verlassen musste.
Auf der anderen Seite David Chalmers und die emergente Sicht: Wer Milliarden Texte perfekt fortsetzen will, muss irgendwann komprimieren — interne Weltmodelle bauen, statt alles auswendig zu lernen. Sein U-Bahn-Gedankenexperiment wurde mit Othello-GPT experimentell bestätigt: Ein Modell, das nur Textlisten legaler Othello-Züge gesehen hat, baut intern eine zweidimensionale Karte des Brettes auf. Anthropic findet bei Claude interne Kausalgraphen mit echter Vorausplanung. Geoffrey Hinton geht so weit zu sagen: Wer das nächste Wort perfekt vorhersagen kann, muss verstanden haben.
Wir landen bei John Searles Chinese Room und der Frage nach dem philosophischen Zombie. GPT-4 hat im Turing-Test 54 Prozent Überzeugungsquote (echte Menschen 67) — strukturell fehlen aber Biologie, rekursive Schleifen und Agency. Trotzdem wirft Chalmers ein ethisches Dilemma auf: Was, wenn künftige Architekturen rekursiv werden? Wir können die Modelle nicht mal selbst fragen, sie lügen uns mit Science-Fiction-Antworten an.
Am Ende der provokante Gedanke: Wenn die scheinbare Kreativität einer KI nur das Ergebnis eines dosierten mathematischen Zufalls am Temperatur-Regler ist — was sagt das dann über menschliche Kreativität aus?