Eine RAG-Lösung ist nie besser als ihre Retrieval-Schicht. Wenn die Suche falsche Quellen liefert, antwortet das LLM falsch. 2026 haben sich klare Best Practices etabliert, mit denen sich Retrieval-Qualität dramatisch verbessern lässt — über reine Vector-Suche hinaus. Dieser Beitrag zeigt die drei wichtigsten Bausteine: Hybrid Search, Reranking und GraphRAG.
1. Warum reine Vector-Suche selten reicht
Embedding-Suche ist eine Revolution gegenüber klassischer Volltextsuche — sie findet semantisch ähnliche Inhalte. Aber sie hat Schwächen:
- Exakte Begriffe. Produktcodes, Personennamen, technische Bezeichner. Embeddings können sie übersehen, weil sie selten sind.
- Mehrdeutigkeit. Synonyme Antworten werden gefunden, auch wenn der Nutzer einen spezifischen Begriff meinte.
- Sehr seltene Konzepte. Wenn etwas im Pretraining selten vorkam, sind die Embeddings unzuverlässig.
- Beziehungen zwischen Entitäten. Embeddings verstehen Bedeutung, nicht Struktur.
Mehr zu Embeddings selbst in Embeddings und Vector Databases. Hier geht es um das, was darüber hinaus nötig wird.
2. Hybrid Search — dichte und sparse Suche
Hybrid Search kombiniert zwei Retrieval-Methoden:
- Dense Search mit Embeddings: semantische Ähnlichkeit, gut für umschreibende Fragen.
- Sparse Search mit BM25: exakte Wortübereinstimmung, gut für Namen, Codes, Fachbegriffe.
Beide Suchen laufen parallel auf demselben Dokumentenbestand. Eine Fusion-Schicht kombiniert die Ergebnisse. Resultat: Embedding-Recall plus BM25-Präzision. In typischen Enterprise-RAG-Setups bringt Hybrid Search 10–25% bessere Recall@10 als reine Embedding-Suche.
Vector-Datenbanken wie pgvector, Qdrant, Weaviate unterstützen Hybrid Search nativ. Wer es selbst baut, kombiniert Postgres-Volltext oder OpenSearch mit pgvector oder Qdrant.
3. Fusion: RRF und gewichtete Kombination
Wie kombiniert man zwei Ranglisten?
- Reciprocal Rank Fusion (RRF). Jeder Treffer bekommt einen Score auf Basis seines Rangs in jeder Liste: Score = 1/(k + Rang). Treffer, die in beiden Listen weit oben stehen, erhalten den höchsten Gesamtscore. Sehr robust, keine Gewichtsabstimmung nötig.
- Gewichtete Score-Kombination. Score = α·dense_score + (1-α)·sparse_score. Erfordert Normalisierung, da Embedding- und BM25-Scores in unterschiedlichen Bereichen liegen. Tuning des α ist nötig.
- Lernbare Fusion. Ein kleines Modell lernt die Kombination aus Beispielen. Sehr präzise, aber höherer Trainingsaufwand.
RRF ist der pragmatische Standard 2026 — robust, einfach, gute Resultate ohne Tuning.
4. Reranking mit Cross-Encodern
Embedding-Suche skaliert auf Millionen Dokumente, ist aber unscharf — sie vergleicht Query und Dokument unabhängig (Bi-Encoder). Cross-Encoder verarbeiten Query und Dokument gemeinsam und können viel feinere Relevanzentscheidungen treffen — sind aber langsam.
Lösung: Zwei-Stufen-Retrieval.
- Erste Stufe: Embedding- oder Hybrid Search, Top-100 Treffer.
- Zweite Stufe: Cross-Encoder-Reranker sortiert die Top-100 neu, gibt Top-5 oder Top-10 zurück.
Produktive Reranker 2026:
- bge-reranker-v2-m3. Open-Weight, mehrsprachig, gute Qualität.
- Cohere Rerank v3. Closed-API, sehr gute Qualität.
- Jina Reranker. Open-Source und Cloud, mehrsprachig.
Ein Reranking-Schritt bringt typisch nochmal 10–20% Qualität — auf einer schon optimierten Hybrid-Search-Basis. Es ist der Standard-Hebel für Enterprise-RAG, sobald die ersten Schritte gemacht sind.
5. GraphRAG und Knowledge Graphs
Manche Anfragen verlangen mehr als Ähnlichkeit — sie verlangen Beziehungen. Welche Verträge mit Lieferanten in Region X sind 2025 verlängert worden? Welche Klauseln widersprechen Klausel 4.2? Solche Fragen sind mit Embedding-Suche schwer zu beantworten, weil die relevanten Verbindungen explizit gemacht werden müssen.
GraphRAG kombiniert Retrieval mit einem Knowledge Graph — einer strukturierten Repräsentation von Entitäten (Verträge, Klauseln, Personen, Produkte) und Beziehungen (verlängert-von, widerspricht, lieferte-an).
Architekturen 2026:
- Microsoft GraphRAG. Erzeugt Knowledge Graphs automatisch aus Dokumenten via LLM-Extraktion. Open-Source.
- Cognee. Ähnlicher Ansatz, fokussiert auf Memory-Graphen für Agenten.
- Hand-kuratierte Graphen. Wenn die Domäne klar strukturiert ist (Recht, Compliance, Engineering), lohnt sich ein eigener Graph statt LLM-Extraktion.
Backends: Neo4j, ArangoDB, FalkorDB (Redis-basiert), Postgres mit Apache AGE. Wahl je nach Volumen und bestehender Infrastruktur.
GraphRAG ist aufwändiger als reines Embedding-RAG, lohnt aber dort, wo Beziehungen wichtiger sind als Inhalte.
6. Agentic Retrieval — adaptive Suche
Ein zusätzlicher Hebel 2026: Statt einer einzigen Such-Anfrage führt ein Agent mehrere adaptive Anfragen durch.
- Query Decomposition. Komplexe Fragen werden in Unteranfragen zerlegt, jede einzeln gesucht.
- Hypothesis-Generation (HyDE). Das LLM generiert eine hypothetische Antwort, deren Embedding für die Suche genutzt wird — oft präziser als die ursprüngliche Frage.
- Iterative Retrieval. Erste Ergebnisse motivieren weitere Anfragen, bis genug Kontext gesammelt ist.
Diese Techniken kosten zusätzliche Token und Latenz, lohnen aber bei schwierigen Anfragen. Reasoning-Modelle (siehe Reasoning Models) sind besonders gut darin.
7. Praxis: Aufbau einer produktiven Pipeline
Empfohlene Schritte:
- Basis-Pipeline mit Hybrid Search. Embeddings + BM25, RRF-Fusion. Sofortiger Qualitätssprung gegenüber reinem Vector-Search.
- Eval-Suite. 50–200 reale Fragen mit erwarteten Quellen. Recall@10, MRR messen.
- Reranker einbauen. Cross-Encoder auf Top-100. Eval messen.
- Chunking iterieren. Größe, Overlap, Strategie. Oft der größte Hebel.
- GraphRAG, wenn nötig. Bei stark vernetzten Domänen.
- Agentic Retrieval, wenn Anfragen komplex. Mit Reasoning-Backbone.
Moderne KI-Suche ist 2026 eine Disziplin mit klaren Best Practices und produktiver Tool-Landschaft. Wer reines Vector-Search einsetzt, lässt 20–50% Qualität liegen. Wer Hybrid Search, Reranking und gegebenenfalls GraphRAG kombiniert, baut RAG-Systeme, die im Enterprise-Alltag tragen. Die Schlüssel-Disziplin bleibt die Eval-Pipeline — ohne sie ist jede Optimierung Glücksspiel. Mit ihr wird Retrieval-Qualität zu einer planbaren Engineering-Größe. Mehr zum operativen Betrieb in LLMOps.
Häufige Fragen.
/ 01Was ist Hybrid Search konkret?
Hybrid Search kombiniert zwei oder mehr Retrieval-Methoden: dichte Embedding-Suche (semantische Ähnlichkeit) und Sparse-Search wie BM25 (exakte Wortübereinstimmung). Beide haben komplementäre Stärken — Embeddings finden synonyme Inhalte, BM25 fängt exakte Namen, Codes und Fachbegriffe. Zusammen sind sie deutlich präziser.
/ 02Wie funktioniert Reranking?
Nach der ersten Suche (Top-50 oder Top-100 Treffer) sortiert ein zweites, präziseres Modell — typisch ein Cross-Encoder — die Treffer neu. Cross-Encoder verarbeiten Anfrage und Treffer gemeinsam und können feinere Relevanzentscheidungen treffen als reine Embedding-Suche. Sie sind langsam, aber nur auf der schon gefilterten Top-Liste nötig.
/ 03Was ist GraphRAG?
GraphRAG kombiniert Retrieval mit einem Knowledge Graph — einer strukturierten Repräsentation von Entitäten und Beziehungen. Statt nur Text-Chunks abzurufen, navigiert das System Beziehungen: Wer ist verbunden mit wem, was hängt mit was zusammen. Besonders nützlich für komplexe Fragen, die mehrere Entitäten und Verbindungen einbeziehen.
/ 04Wann lohnt sich GraphRAG?
Wenn die Domäne stark vernetzt ist — Recht (Klausel-Klausel-Verweise), Wissenschaft (Zitations-Netzwerke), Compliance (Regelketten), Engineering (Abhängigkeiten). Wenn Antworten Hops über mehrere Beziehungen erfordern (»Welche Verträge mit Lieferanten in Region X sind 2025 verlängert worden?«), liefert GraphRAG oft deutlich bessere Resultate als reines Embedding-RAG.
/ 05Was kostet ein Reranker?
Cross-Encoder sind etwa 10–100× langsamer als reine Embedding-Suche. Auf einer Top-100 ist das aber typisch 50–200 ms — vertretbar. Modelle wie bge-reranker-v2-m3 oder Cohere Rerank sind 2026 produktionsreif. On-premise kostet ein Reranker zusätzliche Inferenz-Ressourcen, oft eine kleine GPU.
/ 06Wie messe ich Retrieval-Qualität?
Mit einem Eval-Set realer Fragen und erwarteter Quell-Dokumente. Metriken: Recall@K (wie oft die richtige Quelle in den Top-K ist), MRR (mittlerer reziproker Rang), nDCG. Ohne Eval-Set ist Optimierung Glücksspiel. Mehr in Guardrails, Evals und Prompt Injection.