Ein großes Modell zu trainieren ist teuer. Ein großes Modell produktiv zu betreiben ist noch teurer — jeden Tag, jeden Token. Model Distillation löst dieses Problem: Sie überträgt die Fähigkeiten eines großen Lehrer-Modells auf ein kleineres, günstigeres Student-Modell. Was 2018 als Forschungstechnik begann, ist 2026 eine produktive Strategie für jeden, der LLMs in Volumen betreibt. Dieser Beitrag erklärt, wann sich der Aufwand wirklich rechnet.
1. Warum Distillation
Drei Treiber:
- Inferenz-Kosten. Ein 70B-Modell ist 5–10× teurer pro Token als ein 7B-Modell. In einer Anwendung mit Millionen täglicher Anfragen wird daraus schnell ein vier- bis sechsstelliger monatlicher Posten. Mehr zu Inferenz-Kosten in LLM Inference.
- Latenz. Ein kleines Modell antwortet in 100–500 ms. Ein großes braucht 1–5 Sekunden. Für interaktive Anwendungen ist das ein entscheidender UX-Unterschied.
- Hardware-Souveränität. Ein 7B-Modell läuft auf einer einzelnen Consumer-GPU oder sogar einem Mac. Ein 70B-Modell braucht Datacenter-Hardware. Für On-Premise- und Edge-Deployments macht das einen erheblichen Unterschied.
2. Wie Distillation funktioniert
Das Grundprinzip ist einfach:
- Teacher generiert Daten. Das große Modell beantwortet eine Reihe von Eingaben — generiert Antworten, Reasoning-Spuren, Erklärungen.
- Trainingsdatensatz aus Teacher-Outputs. Eingabe + Teacher-Antwort wird zu einem Trainingspaar.
- Student wird darauf trainiert. Ein kleineres Modell lernt, die Teacher-Antworten zu reproduzieren — meist mit Standard-Cross-Entropy-Loss oder zusätzlichen Loss-Termen.
Die Eingaben können aus realen Daten stammen oder selbst generiert sein (Prompts, die zur Diversifikation des Datensatzes synthetisch erzeugt werden). Mehr zu solchen Datensätzen in Synthetic Data.
3. Drei Varianten: Soft, Hard, Behavioral
Soft Distillation. Der Student lernt nicht nur die finale Antwort, sondern die volle Wahrscheinlichkeitsverteilung des Teachers über alle möglichen Tokens. Das überträgt feinere Nuancen. Voraussetzung: Zugriff auf die Logits des Teachers — bei Closed-API-Modellen oft nicht möglich.
Hard Distillation. Der Student lernt nur die finale Token-Sequenz des Teachers. Funktioniert auch mit Closed-API-Teachers, weil keine Logits nötig sind. Etwas verlustreicher, aber praktisch.
Behavioral / Black-Box Distillation. Erweitert Hard Distillation um Verhaltensaspekte: der Student wird trainiert, in mehrstufigen Interaktionen, Tool-Use-Mustern oder Reasoning-Spuren dem Teacher zu folgen. Besonders relevant für Agenten und Reasoning-Modelle. Siehe auch Reasoning Models.
4. Praxisbeispiele 2026
- OpenAI o1-mini, o3-mini. Destillate ihrer größeren Reasoning-Modelle, deutlich günstiger, vergleichbar in vielen Aufgaben.
- DeepSeek-R1 Distillates. Open-Weight-Modelle (1.5B, 7B, 14B, 32B), die R1-Reasoning-Verhalten in kleinere Modelle bringen. Frei verfügbar.
- Llama-3.1-8B als Workhorse. Viele Unternehmen destillieren GPT-4-Antworten in 8B-Llamas für spezifische Domänen — On-Premise-fähig, günstig in Produktion.
- Code-Distillation. Modelle wie DeepSeek-Coder-V2-Lite oder Qwen-Coder-Distillates ermöglichen lokale Coding-Assistenten ohne API-Aufrufe.
5. Wann sich Distillation rechnet
Eine pragmatische Heuristik: Distillation rechnet sich, wenn:
- Hohe Anfrage-Volumen. Ab etwa 100.000 Anfragen pro Monat amortisiert sich der Trainingsaufwand schnell.
- Klar umgrenzte Domäne. Wenn die Aufgabe einen engen Bereich abdeckt (Support-Fragen, Code in einem Framework, Klassifikation), kann der Student den Teacher fast vollständig nachahmen.
- Bestehende Eval-Suite. Ohne Eval ist die Erfolgsmessung unmöglich. Mit Eval ist Distillation steuerbar.
- Lizenzfrage geklärt. Open-Weight-Teacher (Llama, Mistral, DeepSeek) sind hier deutlich unproblematischer als Closed-API-Teachers.
Wenn das Anfrage-Volumen niedrig oder die Aufgabe sehr offen ist, lohnt sich Distillation oft nicht — die Trainingskosten amortisieren sich nicht.
6. Typische Fehlerquellen
- Schlechte Datenkurierung. Ein Teacher kann halluzinieren oder Fehler machen. Diese Fehler werden vom Student gelernt. Filter- und Validierungspipeline ist Pflicht.
- Zu kleiner Student. Wenn das Student-Modell zu klein ist, kann es das Verhalten des Teachers nicht reproduzieren. Mindestgröße prüfen.
- Mangelnde Diversität im Trainingsdatensatz. Wenn der Datensatz zu eng ist, leidet die Generalisierung. Synthetische Diversifikation hilft.
- Fehlende Eval auf Edge Cases. Ein destilliertes Modell kann auf Standard-Inputs hervorragend funktionieren und auf Edge Cases versagen. Eval-Suite muss Edge Cases einschließen — siehe Guardrails, Evals und Prompt Injection.
- Vergessen der Lizenzfrage. Outputs einer kommerziellen API zum Trainieren eines konkurrierenden Open-Source-Modells zu nutzen, kann rechtlich problematisch sein.
7. Empfohlenes Vorgehen
Ein bewährter Pfad in vier Schritten:
- Use Case und Eval festlegen. Was soll das Student-Modell können? Welche Metriken?
- Teacher-Datensatz generieren. 50.000–500.000 Beispiele, idealerweise mit Diversifikation. Filter auf Konsistenz und Korrektheit.
- Student-Training mit LoRA oder Full Fine-Tuning. Je nach Modellgröße und Hardware. Side-by-Side gegen Teacher.
- Eval, Iteration, Deployment. Klare Akzeptanzkriterien. Wenn der Student zu schwach bleibt: größerer Student oder besserer Teacher-Datensatz.
Model Distillation ist 2026 keine experimentelle Spielwiese mehr, sondern eine kosteneffiziente Standardstrategie für produktive LLM-Setups in Volumen. Wer große Modelle in Produktion einsetzt, ohne über Distillation nachgedacht zu haben, lässt zweistellige Effizienzgewinne liegen. Wer sie strukturiert einsetzt — mit sauberen Daten, Eval und Lizenzklarheit — baut einen langfristig betreibbaren AI-Stack zu Bruchteilen der Vendor-Kosten.
Häufige Fragen.
/ 01Was unterscheidet Distillation von Fine-Tuning?
Fine-Tuning passt ein Modell auf eine Aufgabe an, mit menschlich gelabelten oder kuratierten Daten. Distillation trainiert ein kleineres Modell darauf, die Antworten eines größeren Modells zu imitieren. Die Trainingsdaten werden also vom Lehrer-Modell erzeugt, nicht von Menschen. Distillation ist eine spezielle Form des Fine-Tunings mit synthetischen Daten.
/ 02Wie viel Qualität verliert ein destilliertes Modell?
Stark abhängig von der Aufgabe und den Modellgrößen. Bei klar umrissenen Aufgaben kann ein 7B-Student 90–98% der Qualität eines 70B-Lehrers erreichen. Bei offenen Aufgaben oder Reasoning ist der Verlust deutlicher — oft 5–15%. Eine Eval-Suite ist Pflicht, um den tatsächlichen Verlust zu messen.
/ 03Welche Modelle eignen sich als Teacher?
Grundsätzlich jedes Modell, dessen Antworten qualitativ überzeugen. In der Praxis sind das große Frontier-Modelle (GPT-4-Klasse, Claude, Gemini, DeepSeek-V3, Llama-405B). Auch ensemble-basierte Setups mit mehreren Teachern sind möglich, die ein Student nachahmt.
/ 04Ist Distillation lizenzrechtlich problematisch?
Ja, das ist eine ernsthafte Frage. Viele kommerzielle APIs verbieten die Nutzung ihrer Outputs zum Training konkurrierender Modelle. Open-Weight-Modelle wie Llama, Mistral und DeepSeek erlauben es meist explizit. Vor jedem Distillation-Projekt müssen die Lizenzbedingungen geprüft werden.
/ 05Kann ich Distillation und LoRA kombinieren?
Ja, das ist eine beliebte Kombination. Distillation erzeugt einen guten Basis-Student. Anschließend feinjustiert man mit LoRA für spezifische Domänen oder Use Cases. Details in LoRA erklärt.
/ 06Wie hoch ist der Trainingsaufwand für Distillation?
Niedriger als Pretraining, aber höher als reines Fine-Tuning. Typisch 50.000–500.000 vom Teacher generierte Trainingsbeispiele. GPU-Stunden für das Student-Training: ähnlich einem normalen Fine-Tuning. Hauptkosten: API-Calls oder Inference-Stunden auf dem Teacher zur Datengenerierung.