Ein LLM-Prototyp ist in zwei Tagen gebaut. Ein LLM-System, das ein Jahr lang produktiv bleibt, ist eine andere Liga. LLMOps — die operative Disziplin für LLM-Anwendungen — versammelt die Praktiken, die diesen Unterschied ausmachen. 2026 ist sie keine optionale Reife mehr, sondern Voraussetzung für jeden produktiven Einsatz. Dieser Beitrag erklärt die Bausteine.
1. Warum LLMOps eine eigene Disziplin ist
Klassische Software hat deterministische Outputs. Klassische ML-Modelle haben statistische, aber prüfbare Outputs. LLMs sind probabilistisch, kontextabhängig und über Versionen veränderbar. Damit treten Probleme auf, die DevOps und MLOps nicht abdecken:
- Prompt-Drift. Eine kleine Änderung am Prompt verändert das Verhalten in unvorhersehbaren Bereichen.
- Modell-Versions-Drift. Ein API-Anbieter ändert sein Modell — die eigene Anwendung verhält sich anders.
- Token-Kosten. Variable Kosten pro Anfrage, die kontrolliert werden müssen.
- Halluzinationen. Outputs sehen plausibel aus, sind aber falsch. Klassische Tests greifen nicht.
- Mehrstufige Workflows. Agenten-Architekturen brauchen tiefes Tracing.
- Datenschutz-Anforderungen. Logging sensitiver Inhalte erfordert spezielle Behandlung.
LLMOps adressiert diese Spezialitäten. Mehr Hintergrund zu typischen Fehlerquellen in Warum KI-Projekte scheitern.
2. Deployment und Inferenz-Infrastruktur
Drei Optionen:
- Managed APIs. OpenAI, Anthropic, Google. Schnelles Deployment, hohe Qualität, variable Kosten, Vendor-Lock-in.
- Self-hosted Open-Source. Llama, Mistral, DeepSeek auf vLLM, TGI, SGLang. Full Control, fixe Kosten, höherer Engineering-Aufwand. Siehe Open Source vs Closed Source LLM.
- Hybrid. Routing-Schicht entscheidet pro Anfrage. Beste Balance, höchste Komplexität.
Deployment-Best-Practices:
- Blue-Green-Deployment. Zwei Umgebungen, eine aktiv, eine als Reserve. Schneller Rollback möglich.
- Canary-Releases. Neue Modellversion erst auf 5% des Traffics, dann hochfahren.
- Health Checks. Regelmäßige Test-Anfragen, die Qualität und Latenz prüfen.
- Autoscaling. Bei Volume-Spitzen automatisch mehr Inferenz-Pods aktivieren.
Inferenz-Mechanik in LLM Inference.
3. Prompt- und Modell-Versionierung
Prompts sind Code. Sie müssen genauso behandelt werden:
- Git-basiert. Pull-Requests, Reviews, Diffs.
- Eval bei jedem Change. Vor Merge automatisch Eval-Suite laufen lassen.
- Versionsmetadaten. Jede produktive Anfrage trägt Prompt-Hash und Modellversion als Metadatum.
- Rollback-Fähig. Neue Prompt-Version verhält sich schlechter — innerhalb Sekunden zurück auf alte Version.
Modell-Versionierung ist analog. Bei Closed-API: explizite Modell-Endpunkte (gpt-4-2025-01-15) statt globaler Aliase. Bei Open-Source: pinned Versions in Container-Images.
Wer Prompt- und Modellversionen nicht versioniert, weiß nach jedem Update nicht, ob die Qualität noch dieselbe ist.
4. Monitoring: Qualität, Latenz, Kosten
Drei Hauptachsen:
Qualität:
- Online-Sampling: 1–5% der echten Anfragen werden mit LLM-as-Judge oder Mensch bewertet.
- Beschwerde-Pipeline: Nutzer können Antworten markieren.
- Driftindikatoren: Wenn Input-Verteilung sich ändert, ändert sich auch Output-Qualität.
Latenz:
- P50, P95, P99 pro Endpunkt.
- Time-to-First-Token (Streaming) separat erfassen.
- Eingangs- vs. Ausgangs-Latenz trennen.
Kosten:
- Token-Verbrauch pro Anfrage, pro Nutzer, pro Endpunkt.
- Kostenprognosen bei Volumen-Anstieg.
- Alerts bei Anomalien (plötzlich 10× Tokens?).
Dashboards in Grafana, Datadog oder spezialisierten LLM-Observability-Tools wie Langfuse oder Helicone.
5. Tracing und strukturiertes Logging
Eine LLM-Anfrage ist selten ein einzelner Aufruf. Sie ist eine Sequenz:
- Embedding-Berechnung
- Vector-Search
- Reranking
- LLM-Call
- Tool-Calls
- Folge-LLM-Call
- Finale Antwort
Tracing fasst diese Sequenz zu einer durchsuchbaren Spur zusammen. Standards 2026:
- OpenTelemetry GenAI Conventions. Semantische Konvention für LLM-Traces. Breit unterstützt.
- Langfuse, Helicone. Spezialisierte Plattformen mit nativem GenAI-Tracing.
Strukturiertes Logging: nicht nur „Anfrage abgeschlossen”, sondern JSON-Logs mit Modellversion, Prompt-Hash, Token-Verbrauch, Latenz, Trace-ID. Bei sensiblen Daten: PII-Redaktion vor Log-Persistierung, Aufbewahrungsfristen klar definieren.
6. Online- und Offline-Eval
Offline-Eval läuft vor jedem Deploy. Eval-Suite mit 50–500 realen Test-Cases, automatischer Vergleich gegen Goldstandard. Tools: Promptfoo, Inspect-AI, eigene Pipelines.
Online-Eval läuft in Produktion:
- Sampling: zufällige Auswahl realer Anfragen wird detailliert bewertet.
- Shadow Mode: neue Modellversion verarbeitet Anfragen parallel zur alten, Resultate werden verglichen, nicht ausgeliefert.
- A/B-Test: zwei Modellversionen bekommen je einen Anteil des Traffics, Metriken werden gegenübergestellt.
Ohne Eval-Suite ist Engineering-Verbesserung Glücksspiel. Siehe vertiefend Guardrails, Evals und Prompt Injection.
7. Incident-Handling und Rollback
Typische Incidents:
- Halluzinationen erkannt. Antwort war faktisch falsch, Nutzer markiert es. Trace ziehen, Ursache finden, Eval erweitern, Rollback wenn nötig.
- Modell-Update verschlechtert Qualität. Online-Sampling fällt unter Schwelle. Sofort Rollback auf alte Modellversion.
- Prompt Injection erfolgreich. Sicherheits-Incident. Trace analysieren, Guardrails verstärken, betroffene Daten prüfen.
- Latenz-Spikes. Lange Inputs überfordern Stack. Chunked Prefill aktivieren, Limit setzen.
- API-Anbieter-Ausfall. Failover auf Backup-Modell oder Backup-API.
Eine Runbook-Dokumentation pro Incident-Typ ist Standard. Bei regulierten Branchen (Finanzen, Gesundheit) ist Incident-Dokumentation Compliance-Anforderung — siehe EU AI Act erklärt.
LLMOps ist 2026 keine Forschungsdisziplin, sondern operative Grundausstattung. Wer LLMs produktiv betreibt, ohne diese Praktiken aufzubauen, fliegt blind — und merkt das spätestens beim ersten Incident, oft vom Kunden mitgeteilt. Wer LLMOps von Anfang an mit aufbaut, hat ein System, das nicht nur funktioniert, sondern kontinuierlich besser wird, planbar Kosten hält und Audits standhält. Die Investition lohnt sich ab dem ersten Tag im produktiven Einsatz.
Häufige Fragen.
/ 01Was unterscheidet LLMOps von MLOps?
MLOps verwaltet klassische ML-Modelle: Training-Pipelines, Daten-Drift, Feature-Stores. LLMOps fügt LLM-spezifische Disziplinen hinzu: Prompt-Versionierung, Token-Cost-Tracking, Eval mit LLM-as-Judge, Tracing über mehrstufige Agenten-Workflows, Logging mit Privacy-Considerations. Es gibt Überschneidungen, aber LLMs bringen genug Besonderheiten, um eine eigene Praxis zu rechtfertigen.
/ 02Welche Tools gehören zum LLMOps-Stack 2026?
Inferenz: vLLM, TGI, SGLang. Tracing/Observability: Langfuse, Helicone, OpenTelemetry mit GenAI-Erweiterung. Eval: Promptfoo, Inspect-AI, eigene Pipelines. Prompt-Management: PromptLayer, LangSmith, eigene Git-basierte Lösungen. Cost-Tracking: spezialisierte Plattformen oder Eigenbau. Es gibt 2026 keine Universal-Plattform — die meisten produktiven Setups kombinieren Open-Source-Tools.
/ 03Wie versioniere ich Prompts richtig?
Wie Code: Git-basiert, mit Pull-Requests und Reviews. Jede Prompt-Änderung sollte Tests durchlaufen (Eval-Suite). Tagging mit Version, ausgewähltem Modell, Hyperparametern. Bei Produktion: Prompt-Hash als Metadatum jeder Anfrage, damit Drift sichtbar wird. Veränderbare Prompts ohne Versionierung sind LLMOps-Antipattern.
/ 04Wie überwache ich LLM-Qualität in Produktion?
Drei Schichten: (1) Eval-Suite vor Deployment — automatisierte Tests gegen Goldstandard. (2) Online-Sampling — 1–5% der echten Anfragen werden bewertet (LLM-as-Judge oder Mensch). (3) Beschwerde-Pipeline — Nutzer können fehlerhafte Antworten markieren. Ohne diese drei Schichten merkt man Qualitätsverlust erst beim Kunden.
/ 05Was kostet ein LLM-Backend in Produktion?
Hängt vom Modell und Volumen ab. On-premise mit Open-Source-Modellen: Hardware (1.500–10.000 EUR/Monat pro GPU-Knoten) + Stromkosten + Engineering-Aufwand. Cloud-APIs: 0,5–60 USD pro Million Output-Tokens. Ab moderaten Volumina lohnt sich on-premise klar — siehe Open Source vs Closed Source LLM.
/ 06Was sind typische LLM-Incidents?
Halluzinationen mit hoher Konfidenz, Prompt Injection-Erfolg, Drift nach Modellversion-Update, Rate-Limit von API-Anbietern, Latenz-Spitzen bei langen Eingaben, Tool-Calling-Fehler, Datenschutz-relevante Outputs. Eine Incident-Pipeline mit klaren Eskalationspfaden ist Pflicht — siehe Guardrails, Evals und Prompt Injection.