Was unterscheidet Instruction Tuning von Pretraining?

Pretraining trainiert das Modell auf rohen Text — Wikipedia, Bücher, Code, Web. Resultat: ein Modell, das Sätze fortsetzen kann, aber Aufträgen nicht folgt. Instruction Tuning (SFT) trainiert das Modell anschließend auf Beispielen von Instruktion und gewünschter Antwort, sodass es zu folgen lernt. Erst danach ist das Modell ein nutzbarer Assistent.

Was bedeutet RLHF konkret?

Reinforcement Learning from Human Feedback: Menschen bewerten Modellantworten paarweise (welche ist besser?). Daraus wird ein Reward-Modell trainiert. Schließlich wird das LLM via Reinforcement Learning (typisch PPO) optimiert, das Reward-Modell zu maximieren — also Antworten zu produzieren, die Menschen bevorzugen.

Wieso ist DPO einfacher als RLHF?

DPO (Direct Preference Optimization) überspringt das separate Reward-Modell und die PPO-Phase. Stattdessen wird die Preference-Lossfunktion direkt auf das LLM angewendet. Resultat: stabileres Training, einfacher zu implementieren, oft vergleichbar gute Qualität wie RLHF. Seit 2024 der pragmatische Standard.

Welche Open-Source-Tools gibt es für Alignment?

Hugging Face TRL (Transformer Reinforcement Learning) für SFT, DPO, KTO, RLHF. Axolotl für end-to-end-Training. OpenRLHF für skaliertes RLHF. UnSloth für effizientes Single-GPU-Training. Alle 2026 produktionsreif für Open-Weight-Modelle.

Brauche ich viele Trainingsdaten für eigenes Alignment?

Mit DPO oft erstaunlich wenig: 1.000–10.000 Präferenzpaare können für eine spezifische Domäne genügen. SFT-Daten: 500–50.000 Beispiele. Quality beats quantity. Hochwertige, konsistente Daten schlagen jede Menge an mittelmäßigen.

Was ist Constitutional AI?

Constitutional AI ist Anthropics Variante, die statt menschlichem Feedback eine schriftliche Verfassung (set of principles) nutzt. Ein zweites Modell bewertet Antworten gegen diese Prinzipien; daraus entsteht der Trainings-Datensatz. Resultat: skalierbares Alignment ohne den Engpass menschlicher Annotation. Erweitert in RLAIF (Reinforcement Learning from AI Feedback).

Instruction Tuning, RLHF & DPO: Alignment für LLMs (2026)

Ein rohes Pretrained-LLM ist beeindruckend, aber nicht direkt brauchbar. Es kann Texte fortsetzen, aber nicht zuverlässig auf Fragen antworten, Aufträge ausführen oder Schaden vermeiden. Die Verwandlung in einen nützlichen, sicheren Assistenten geschieht durch Alignment — eine Trainings-Pipeline aus Instruction Tuning, Präferenzdaten und Optimierungsverfahren wie RLHF oder DPO. Dieser Beitrag erklärt die Methoden für Teams, die selbst ausrichten wollen.

1. Warum ein rohes LLM nicht direkt nutzbar ist

Im Pretraining lernt ein LLM, das nächste Token vorherzusagen — gegeben Milliarden Texte aus dem Web, Büchern und Code. Das Resultat ist mächtig: das Modell hat Weltwissen, Sprachverständnis und implizite Argumentationsfähigkeiten. Aber es hat nicht gelernt, einem Auftrag zu folgen. Frage es nach einer Zusammenfassung, und es kann eine Antwort liefern — oder den Text einfach fortsetzen, weil Pretraining-Texte oft so weitergehen.

Drei Eigenschaften fehlen einem rohen Modell:

Instruktionstreue. Auf eine Frage tatsächlich antworten, nicht weiterreden.
Hilfsbereitschaft. Konkret und nützlich antworten, nicht ausweichen.
Sicherheit. Schädliche Anfragen ablehnen, Halluzinationen reduzieren.

Diese Eigenschaften werden im Alignment trainiert.

2. Instruction Tuning (SFT) — die Basis

Supervised Fine-Tuning (SFT) ist der erste Schritt: Das Modell wird auf Beispielpaaren von Instruktion und gewünschter Antwort trainiert. Datensätze wie Alpaca, Dolly, OpenOrca oder UltraChat haben hunderttausende solcher Beispiele.

Effekt:

Das Modell folgt Anweisungen.
Es antwortet im erwarteten Format.
Es übernimmt Stil und Tonalität des Trainingsdatensatzes.

Wichtige Hyperparameter: relativ kleine Lernrate, wenige Epochen (1–3), Cross-Entropy-Loss auf den Antwortteil (nicht auf die Instruktion). Mit LoRA ist SFT auf einer einzelnen GPU machbar — Details in LoRA erklärt.

SFT allein reicht oft nicht. Das Modell lernt zwar zu folgen, hat aber keine Mechanismen, ungewollte Outputs zu vermeiden. Dafür braucht es Präferenzdaten.

3. RLHF — Reinforcement Learning from Human Feedback

RLHF ist der ursprüngliche Durchbruch, mit dem InstructGPT und später ChatGPT trainiert wurden. Drei Phasen:

SFT. Wie oben.
Reward-Modell trainieren. Menschen bewerten Paare von Antworten (welche ist besser?). Aus diesen Bewertungen wird ein Reward-Modell trainiert, das eine Antwort numerisch bewertet.
PPO-Optimierung. Das LLM wird via Proximal Policy Optimization trainiert, Antworten zu produzieren, die das Reward-Modell hoch bewertet — mit einer Regularisierung, die zu starkes Abweichen vom SFT-Modell verhindert.

Vorteile: Hochqualitativ, robust, gut etabliert. Nachteile: Komplex (drei Trainingsphasen), instabil (PPO ist sensibel), teuer (zwei Modelle parallel im Speicher).

RLHF bleibt 2026 relevant für Spitzenmodelle, ist aber für die meisten Unternehmensanwendungen überdimensioniert.

4. DPO und seine Verwandten

DPO (Direct Preference Optimization), 2023 vorgestellt, überspringt das separate Reward-Modell. Aus den Präferenz-Paaren wird ein direkter Loss konstruiert, der gegen das SFT-Modell und das Referenzmodell trainiert wird. Mathematisch elegant — empirisch in vielen Aufgaben vergleichbar mit RLHF, oft sogar besser.

Vorteile:

Einfacher zu implementieren.
Stabileres Training, kein PPO-Tuning.
Weniger Speicher (kein separates Reward-Modell).

Verwandte Methoden 2026:

IPO. Identity Preference Optimization, robuster gegen Label-Rauschen.
KTO. Kahneman-Tversky Optimization, lernt von einzelnen Bewertungen statt Paaren.
ORPO. Odds Ratio Preference Optimization, kombiniert SFT und Preference in einem Schritt.
SimPO. Simple Preference Optimization, weniger Hyperparameter.

Für die meisten Unternehmensanwendungen ist DPO der pragmatische Standard. Wer letzte Prozente an Qualität sucht, kann ORPO oder SimPO probieren.

5. Constitutional AI und RLAIF

Menschliches Feedback ist teuer und nicht skalierbar. Constitutional AI (Anthropic) und RLAIF (Reinforcement Learning from AI Feedback) ersetzen menschliche Annotatoren teilweise durch andere Modelle, die Antworten gegen eine schriftliche „Verfassung” bewerten — eine Liste von Prinzipien wie „Antworte hilfreich. Vermeide Schaden. Sei ehrlich.”

Vorteile:

Skalierbar.
Transparent (Prinzipien sind explizit).
Iterativ (Prinzipien können angepasst werden, ohne neue Annotationen).

Für Unternehmen interessant: eine eigene Verfassung kann domänenspezifische Werte und Constraints kodieren (zum Beispiel branchenspezifische Compliance). Das macht das Alignment präziser anpassbar als reines menschliches Feedback.

6. Praxis: Eigene Alignment-Pipeline

Eine produktive Mini-Pipeline für eigene Use Cases:

Basismodell wählen. Open-Weight mit kommerziell freier Lizenz (Llama 3.x, Mistral, Qwen).
SFT-Datensatz erstellen. 1.000–10.000 hochwertige Instruction-Response-Paare aus eigenen Domänen.
SFT mit LoRA. Ein bis zwei Iterationen. Schon hier deutliche Qualitätssprünge sichtbar.
Präferenzdaten erzeugen. Aus dem SFT-Modell zwei Antworten pro Prompt ziehen, durch Experten bewerten (oder durch ein stärkeres Modell, mit Eval-Kontrolle).
DPO. 1.000–5.000 Präferenzpaare reichen oft. LoRA-DPO ist auf einer GPU machbar.
Eval. Domänenspezifische Tests, Side-by-Side gegen Basismodell. Siehe Guardrails, Evals und Prompt Injection.

Synthetische Daten können diese Pipeline beschleunigen — siehe Synthetic Data.

7. Grenzen und offene Fragen

Alignment hat Grenzen:

Goodharting. Wenn das Modell auf eine Metrik optimiert wird, kann es Lücken in der Metrik ausnutzen, ohne wirklich besser zu werden.
Reward Hacking. Modelle können lernen, das Reward-Modell zu täuschen, statt wirklich gute Antworten zu produzieren.
Helpfulness vs. Harmlessness. Trade-off: Ein hilfreicheres Modell ist oft auch verletzlicher gegen Missbrauch.
Distribution Shift. Alignment auf Trainingsdaten überträgt sich nicht perfekt auf reale Anwendungen.
Interpretierbarkeit. Auch ausgerichtete Modelle bleiben Black Boxes — siehe Mechanistic Interpretability.

Trotzdem: Eigenes Alignment ist 2026 erreichbar und lohnenswert. Aus einem Open-Weight-Basismodell plus 5.000–20.000 hochwertigen Trainings- und Präferenzbeispielen entsteht ein domänenspezifischer Assistent, der die eigene Sprache spricht, die eigenen Regeln kennt und die eigenen Ablehnungskriterien einhält — komplett unter eigener Kontrolle. Das ist die operative Antwort auf Vendor-Lock-in und Closed-Source-Black-Boxes.

Instruction Tuning, RLHF und DPO: Wie LLMs auf menschliche Präferenzen ausgerichtet werden