Der souveräne AI-Stack 2026 — ein Feldführer für deutsche Mittelständler

Im Frühjahr 2026 sieht der souveräne AI-Stack anders aus als noch vor 18 Monaten — und ganz anders als das, was Hersteller im Pitchdeck zeichnen. Wir haben in den letzten zwölf Monaten in Banken, Versicherungen, Industriemittelstand und Behörden Systeme aufgesetzt. Dieser Text fasst zusammen, was wir gelernt haben, wo der Spaß aufhört und welche Bausteine sich tatsächlich bewährt haben.

1. Der Status Quo 2026

Drei Trends haben sich konsolidiert: Open-Weight-Modelle sind erwachsen geworden. Llama 3.x und Mistral-Familien liefern für die meisten Geschäftsanwendungen Qualität, die mit GPT-4 vergleichbar oder sogar besser ist — sofern man sie ordentlich anpasst. Hosting in Deutschland ist Commodity. Nicht weil es plötzlich billig wäre, sondern weil genug GPU-Kapazität in Frankfurt, Nürnberg und Helsinki verfügbar ist. BYOLLM ist Standardanforderung. Mittelständler kaufen keine Lösung mehr, die ein bestimmtes Modell voraussetzt.

Was sich nicht durchgesetzt hat: vollkommen autonome Agenten ohne Mensch in der Schleife. Closed-Source-Modelle für sensible Daten. Vector-Datenbanken als alleinige Lösung für Wissensretrieval.

2. Die vier Bausteine

Der Stack, den wir 2026 in fast jedem Projekt sehen, besteht aus vier Schichten:

“Souveränität ist keine Eigenschaft eines einzelnen Modells. Sie ist eine Eigenschaft des gesamten Datenpfads.”

Inference Layer — typischerweise vLLM oder TGI, manchmal Ollama für kleinere Setups. Container-basiert, Kubernetes-orchestriert, GPU-pinning konfiguriert.
Adapter Layer — LoRA und QLoRA für domänenspezifische Anpassungen. Mergen wir nur dann ins Basismodell, wenn es operationale Vorteile bringt — meist halten wir Adapter separat.
Retrieval Layer — pgvector für die meisten Setups, Qdrant wenn die Größe es rechtfertigt. Hybrid-Search mit BM25 + Dense Retrieval, Re-Ranking mit Cross-Encoder. Reines Vector-Search ohne Re-Ranking liefert zu viele False Positives.
Orchestration Layer — strukturierte State Machines, kein “Agent, lös es!”. LangGraph oder Pydantic-AI. Manchmal eigener Code in Python oder Go, wenn die Constraints es verlangen.

3. Welche Modelle wirklich tragen

Wir setzen 2026 standardmäßig auf eine Drei-Größen-Strategie:

Klein (3-7B): Llama-3.2 3B oder Mistral-7B für schnelle Klassifikation, Routing, einfache Extraktion. Läuft auch auf einer einzelnen RTX 6000 Ada.
Mittel (13-70B): Llama-3.3 70B für komplexere Reasoning-Aufgaben, sofern eine A100/H100 zur Verfügung steht.
Groß (>100B): Nur wenn der Anwendungsfall es wirklich verlangt. In 80% der Projekte unnötig.

Mixtral 8x22B ist als MoE-Architektur ein gutes Mittelding, wenn der VRAM knapp ist — die Sparsity hilft.

4. Deployment-Patterns

Drei Patterns dominieren:

Pattern A: On-Premise air-gapped. Banken, Pharma, Behörden. Eigene GPU-Infra, kein Internet. Wir liefern Container + Modelle als Tarball, Kunde betreibt. Updates per geprüftem Tarball.

Pattern B: EU-Cloud managed. Hetzner GEX44, AWS Frankfurt, OVH. Wir betreiben für den Kunden. SLA, Backups, Monitoring inkludiert. Daten verlassen die EU nicht — bei AWS Frankfurt vertraglich abgesichert, bei Hetzner ohnehin nur Deutschland/Finnland.

Pattern C: BYOLLM-Brücke. Kunde hat schon ein internes Llama-Cluster oder einen Azure-OpenAI-Tenant. Wir docken an, ohne ein eigenes Modell-Hosting daneben zu stellen.

5. Datenpfade, die Auditoren bestehen

Der härteste Test 2026: ein externer Wirtschaftsprüfer schaut sich an, welche Daten wohin fließen. Wir empfehlen seit einem Jahr drei Dinge:

Strukturierte Audit-Logs an jeder Modell-Schnittstelle. Jeder Prompt, jede Completion, mit Hashes statt Klartext, wenn Personendaten enthalten sein können.
Eingangsfilter vor jedem LLM-Call. Reguläre Ausdrücke + ein kleines Klassifikationsmodell für PII.
Ausgabevalidierung mit JSON-Schema oder Pydantic. Strukturierte Outputs sind 2026 keine Option mehr, sondern Default.

6. Kosten ehrlich gerechnet

On-Premise ist ab einem bestimmten Volumen günstiger — aber später als Vendoren behaupten. Eine grobe Faustregel für 2026:

Unter 100.000 Tokens/Tag: API ist günstiger.
100.000 — 1 Mio. Tokens/Tag: managed EU-Cloud lohnt sich.
Über 1 Mio. Tokens/Tag: eigene Infra zahlt sich aus.

Was diese Rechnung kippt: regulatorische Anforderungen. Wenn Daten nicht raus dürfen, ist die ökonomische Frage erledigt — dann geht es um Architektur, nicht um Preis.

7. Fazit

Der Stack 2026 ist ruhiger, langweiliger und ehrlicher als der Hype 2024. Open-Weight + EU-Hosting + saubere Datenpfade + strukturierte Outputs. Das ist es. Wer Ihnen etwas anderes erzählt, verkauft Ihnen etwas, das wir bereits ausprobiert und verworfen haben.

Wenn Sie wissen wollen, welche Schicht in Ihrem konkreten Fall am meisten Hebel hat: reden Sie mit uns.