Was bedeutet 'Attention is all you need'?

Es ist der Titel des Papers von 2017, das den Transformer einführte und revolutionierte, wie maschinelle Sprachverarbeitung funktioniert. Die These: Frühere Architekturen brauchten rekurrente oder konvolutive Bausteine, der Transformer kommt fast ausschließlich mit Attention aus. Resultat: bessere Qualität, bessere Parallelisierbarkeit, einfachere Skalierung.

Was unterscheidet Attention von früheren Methoden?

Frühere Methoden (RNN, LSTM) mussten Sequenzen Schritt für Schritt verarbeiten — Token N wartet auf Token N-1. Attention erlaubt jedem Token, in einem Schritt mit allen anderen Tokens zu interagieren. Das ist parallel berechenbar (GPU-freundlich) und erfasst Langzeit-Abhängigkeiten besser.

Was ist Self-Attention?

Self-Attention ist Attention, in der alle drei Rollen (Query, Key, Value) aus derselben Sequenz kommen. Jedes Token wirft Fragen an alle anderen Tokens, jedes Token beantwortet, jedes Token liefert Inhalt — alle drei Operationen auf derselben Eingabe. Das ist der Kernmechanismus, der dem Transformer Sprachverständnis ermöglicht.

Was ist Multi-Head Attention?

Statt einer Attention-Operation werden mehrere parallel ausgeführt (typisch 8–96 Köpfe), jede mit eigenen lernbaren Projektionen. Jeder Kopf kann sich auf andere Aspekte konzentrieren — Syntax, Semantik, Koreferenz, Position. Die Ergebnisse werden kombiniert. Das erhöht die Ausdrucksstärke deutlich.

Warum gibt es Positional Encoding?

Attention ist von sich aus permutationsinvariant — es weiß nicht, in welcher Reihenfolge die Tokens kommen. Positional Encoding ergänzt jeden Token-Embedding um eine Information über seine Position. Moderne Varianten wie RoPE (Rotary Positional Embedding) und ALiBi ermöglichen längere Kontexte als das ursprüngliche absolute Positional Encoding.

Warum skalieren Transformer so gut?

Drei Gründe: vollständige Parallelisierbarkeit (gut für GPUs), homogene Architektur (gleiche Bausteine, beliebig stapelbar), und empirisch nachgewiesene Skalierungsgesetze — Qualität steigt vorhersagbar mit Modellgröße, Daten und Rechenzeit. Diese Eigenschaften machen Investitionen in immer größere Modelle berechenbar und damit attraktiv.

Attention & Transformer: Die Architektur moderner LLMs (2026)

Hinter jedem ChatGPT, Llama, Claude, Gemini und allen anderen modernen Sprachmodellen steht dieselbe Architektur: der Transformer. Sie wurde 2017 publiziert, hat innerhalb weniger Jahre alle vorherigen Architekturen verdrängt und ist 2026 die unangefochtene Basis fast aller produktiven AI-Systeme. Wer ihre Grundprinzipien versteht, kann Modelle besser auswählen, Engpässe besser diagnostizieren und Optimierungspotenziale gezielter heben. Dieser Beitrag erklärt sie für technische Entscheider.

1. Was vor dem Transformer war

Vor 2017 dominierten rekurrente Netzwerke (RNN, LSTM, GRU) die Sprachverarbeitung. Sie verarbeiten Sequenzen Token für Token — jeder Schritt baut auf dem vorherigen auf. Das hat zwei Probleme:

Sequentialität. Schwer zu parallelisieren, weil Token N+1 auf Token N warten muss. Schlecht für GPU-Hardware.
Langzeit-Abhängigkeiten. Frühere Tokens werden im Zustand vergessen, weite Abhängigkeiten gehen verloren.

Verschiedene Varianten (Attention-Augmented RNN, ConvNets für Sprache) versuchten zu helfen, ohne diese Probleme grundlegend zu lösen. 2017 kam das Paper “Attention is All You Need” — und veränderte alles.

2. Die Attention-Idee

Attention ist im Kern eine einfache Idee: Jedes Token bekommt die Möglichkeit, „auf alle anderen Tokens zu schauen” und sich von ihnen Inhalt zu holen, gewichtet nach Relevanz. Konkret läuft das in drei Schritten:

Query, Key, Value. Jedes Token wird in drei Vektoren projiziert: eine Frage (Q), ein Schlüssel (K), ein Wert (V).
Ähnlichkeit berechnen. Die Query eines Tokens wird gegen die Keys aller Tokens verglichen (Dot-Product, dann Softmax). Das ergibt eine Verteilung über die Sequenz.
Werte gewichtet kombinieren. Mit dieser Verteilung werden die Values gewichtet summiert.

Resultat: Jedes Token „weiß”, wie wichtig jedes andere Token für seine eigene Repräsentation ist, und holt sich gezielt Information. Das funktioniert für Sprache, Bild, Audio, Code — überall, wo Beziehungen zwischen Elementen wichtig sind.

3. Self-Attention und Multi-Head

Self-Attention ist Attention auf einer einzelnen Sequenz: Query, Key, Value kommen alle aus denselben Tokens. Damit kann jedes Token Kontext aus seinem eigenen Satz/Dokument ziehen. Das ist der Kern dessen, was Transformer-LMs „Sprachverstehen” nennen.

Multi-Head Attention parallelisiert das: Statt einer Attention-Operation mit einer Q/K/V-Projektion gibt es mehrere (typisch 8–96), jede mit eigenen lernbaren Gewichten. Jeder Kopf kann auf einen anderen Aspekt achten — manche auf Syntax (welche Wörter gehören grammatikalisch zusammen?), manche auf Semantik (wer ist das Subjekt?), manche auf positionale Strukturen. Die Köpfe werden anschließend kombiniert.

In großen Modellen sieht man interpretierbare Heads — siehe Mechanistic Interpretability.

4. Anatomie eines Transformer-Blocks

Ein Transformer-Block kombiniert mehrere Bausteine:

Multi-Head Self-Attention. Wie oben.
Layer Norm. Normalisiert die Aktivierungen, stabilisiert Training.
Residual Connection. Eingabe wird zur Attention-Ausgabe addiert — hilft gegen Vanishing Gradients in tiefen Netzwerken.
Feed-Forward Network. Zwei lineare Schichten mit Nichtlinearität dazwischen. Verarbeitet jeden Token unabhängig, fügt Modellkapazität hinzu.
Weitere Layer Norm und Residual.

Diese Blöcke werden gestapelt — moderne LLMs haben typisch 30–80 Blöcke. Die Architektur ist homogen (immer derselbe Bautyp) und damit beliebig skalierbar.

In MoE-Modellen wird die Feed-Forward-Schicht durch eine Mixture-of-Experts-Schicht ersetzt — siehe Mixture of Experts.

5. Positional Encoding

Ein Problem: Attention ist permutationsinvariant. Wenn die Tokens vertauscht werden, bleibt das Attention-Ergebnis gleich (modulo Index-Verwirrung). Aber Sprache hat Reihenfolge. Lösung: Positional Encoding ergänzt jeden Token-Embedding um Positionsinformation.

Methoden:

Sinusoidal Positional Encoding (Original). Feste, nicht lernbare Sinus-Funktionen.
Learned Positional Encoding. Lernbare Vektoren pro Position. Funktioniert nur bis zur trainierten Maximallänge.
Relative Positional Encoding. Position relativ zwischen Tokens, nicht absolut.
RoPE (Rotary Positional Embedding). Standard 2026. Rotiert Query und Key abhängig von Position. Skaliert gut auf längere Kontexte.
ALiBi. Lineare Bias-Strafe für entfernte Tokens. Sehr einfach, gute Generalisierung.

Die Wahl beeinflusst, wie gut ein Modell auf Kontextlängen jenseits des Trainings generalisiert. Mehr in Tokenization und Context Windows.

6. Warum Transformer skalieren

Drei strukturelle Gründe machen Transformer ideal für Skalierung:

Parallelisierbarkeit. Alle Tokens können parallel verarbeitet werden. GPUs lieben das.
Homogene Architektur. Jeder Block ist gleich. Architektur-Engineering reduziert sich auf „wie viele Blöcke” und „wie breit”.
Empirische Skalierungsgesetze. Chinchilla, GPT-3-Paper und Folgearbeiten zeigen: Qualität wächst vorhersagbar mit Parameteranzahl, Datenmenge und Trainings-Compute.

Das macht Investitionen kalkulierbar. Wer hört: „Verdoppeln wir Parameter und Daten, bekommen wir X% Qualitätszuwachs” — der investiert. Das hat die KI-Industrie 2020–2024 dramatisch beschleunigt.

7. Weiterentwicklungen 2026

Der ursprüngliche Transformer ist 2026 selten unverändert produktiv. Wichtige Erweiterungen:

FlashAttention. Speichereffiziente Attention-Berechnung. Standard 2026.
Grouped Query Attention / Multi-Query Attention. Reduziert KV-Cache-Speicher.
Mixture of Experts. Sparse Aktivierung. Siehe Mixture of Experts.
State Space Models (Mamba, S4). Konkurrenz zum Transformer für sehr lange Sequenzen. Bisher Nische, aber wachsende Bedeutung.
Hybrid-Architekturen. Transformer mit Mamba-Layern, Mixture-of-Depths, Selective State Space. Spannender Forschungsbereich.
Reasoning-spezifische Architekturen. Modelle mit längeren Gedankenketten — siehe Reasoning Models.

Die Transformer-Grundarchitektur bleibt aber bis auf Weiteres die dominante Wahl für 95% aller produktiven LLMs. Sie zu verstehen ist 2026 keine optionale Bildung, sondern eine Grundvoraussetzung für jeden, der ernsthaft mit LLMs arbeitet — sei es als CTO, Architekt oder Engineer. Ohne dieses Verständnis bleiben die meisten Optimierungsentscheidungen im Bereich Vermutung statt Engineering. Mit ihm wird aus einer GPU-Investition ein berechenbares System mit klaren Skalierungspfaden.

Attention und Transformer: Die Architektur hinter modernen Sprachmodellen