Was ist Hybrid Search konkret?

Hybrid Search kombiniert zwei oder mehr Retrieval-Methoden: dichte Embedding-Suche (semantische Ähnlichkeit) und Sparse-Search wie BM25 (exakte Wortübereinstimmung). Beide haben komplementäre Stärken — Embeddings finden synonyme Inhalte, BM25 fängt exakte Namen, Codes und Fachbegriffe. Zusammen sind sie deutlich präziser.

Wie funktioniert Reranking?

Nach der ersten Suche (Top-50 oder Top-100 Treffer) sortiert ein zweites, präziseres Modell — typisch ein Cross-Encoder — die Treffer neu. Cross-Encoder verarbeiten Anfrage und Treffer gemeinsam und können feinere Relevanzentscheidungen treffen als reine Embedding-Suche. Sie sind langsam, aber nur auf der schon gefilterten Top-Liste nötig.

GraphRAG kombiniert Retrieval mit einem Knowledge Graph — einer strukturierten Repräsentation von Entitäten und Beziehungen. Statt nur Text-Chunks abzurufen, navigiert das System Beziehungen: Wer ist verbunden mit wem, was hängt mit was zusammen. Besonders nützlich für komplexe Fragen, die mehrere Entitäten und Verbindungen einbeziehen.

Wann lohnt sich GraphRAG?

Wenn die Domäne stark vernetzt ist — Recht (Klausel-Klausel-Verweise), Wissenschaft (Zitations-Netzwerke), Compliance (Regelketten), Engineering (Abhängigkeiten). Wenn Antworten Hops über mehrere Beziehungen erfordern (»Welche Verträge mit Lieferanten in Region X sind 2025 verlängert worden?«), liefert GraphRAG oft deutlich bessere Resultate als reines Embedding-RAG.

Was kostet ein Reranker?

Cross-Encoder sind etwa 10–100× langsamer als reine Embedding-Suche. Auf einer Top-100 ist das aber typisch 50–200 ms — vertretbar. Modelle wie bge-reranker-v2-m3 oder Cohere Rerank sind 2026 produktionsreif. On-premise kostet ein Reranker zusätzliche Inferenz-Ressourcen, oft eine kleine GPU.

Wie messe ich Retrieval-Qualität?

Mit einem Eval-Set realer Fragen und erwarteter Quell-Dokumente. Metriken: Recall@K (wie oft die richtige Quelle in den Top-K ist), MRR (mittlerer reziproker Rang), nDCG. Ohne Eval-Set ist Optimierung Glücksspiel. Mehr in Guardrails, Evals und Prompt Injection.

Hybrid Search, Reranking & GraphRAG: Präzise KI-Suche (2026)

Eine RAG-Lösung ist nie besser als ihre Retrieval-Schicht. Wenn die Suche falsche Quellen liefert, antwortet das LLM falsch. 2026 haben sich klare Best Practices etabliert, mit denen sich Retrieval-Qualität dramatisch verbessern lässt — über reine Vector-Suche hinaus. Dieser Beitrag zeigt die drei wichtigsten Bausteine: Hybrid Search, Reranking und GraphRAG.

1. Warum reine Vector-Suche selten reicht

Embedding-Suche ist eine Revolution gegenüber klassischer Volltextsuche — sie findet semantisch ähnliche Inhalte. Aber sie hat Schwächen:

Exakte Begriffe. Produktcodes, Personennamen, technische Bezeichner. Embeddings können sie übersehen, weil sie selten sind.
Mehrdeutigkeit. Synonyme Antworten werden gefunden, auch wenn der Nutzer einen spezifischen Begriff meinte.
Sehr seltene Konzepte. Wenn etwas im Pretraining selten vorkam, sind die Embeddings unzuverlässig.
Beziehungen zwischen Entitäten. Embeddings verstehen Bedeutung, nicht Struktur.

Mehr zu Embeddings selbst in Embeddings und Vector Databases. Hier geht es um das, was darüber hinaus nötig wird.

2. Hybrid Search — dichte und sparse Suche

Hybrid Search kombiniert zwei Retrieval-Methoden:

Dense Search mit Embeddings: semantische Ähnlichkeit, gut für umschreibende Fragen.
Sparse Search mit BM25: exakte Wortübereinstimmung, gut für Namen, Codes, Fachbegriffe.

Beide Suchen laufen parallel auf demselben Dokumentenbestand. Eine Fusion-Schicht kombiniert die Ergebnisse. Resultat: Embedding-Recall plus BM25-Präzision. In typischen Enterprise-RAG-Setups bringt Hybrid Search 10–25% bessere Recall@10 als reine Embedding-Suche.

Vector-Datenbanken wie pgvector, Qdrant, Weaviate unterstützen Hybrid Search nativ. Wer es selbst baut, kombiniert Postgres-Volltext oder OpenSearch mit pgvector oder Qdrant.

3. Fusion: RRF und gewichtete Kombination

Wie kombiniert man zwei Ranglisten?

Reciprocal Rank Fusion (RRF). Jeder Treffer bekommt einen Score auf Basis seines Rangs in jeder Liste: Score = 1/(k + Rang). Treffer, die in beiden Listen weit oben stehen, erhalten den höchsten Gesamtscore. Sehr robust, keine Gewichtsabstimmung nötig.
Gewichtete Score-Kombination. Score = α·dense_score + (1-α)·sparse_score. Erfordert Normalisierung, da Embedding- und BM25-Scores in unterschiedlichen Bereichen liegen. Tuning des α ist nötig.
Lernbare Fusion. Ein kleines Modell lernt die Kombination aus Beispielen. Sehr präzise, aber höherer Trainingsaufwand.

RRF ist der pragmatische Standard 2026 — robust, einfach, gute Resultate ohne Tuning.

4. Reranking mit Cross-Encodern

Embedding-Suche skaliert auf Millionen Dokumente, ist aber unscharf — sie vergleicht Query und Dokument unabhängig (Bi-Encoder). Cross-Encoder verarbeiten Query und Dokument gemeinsam und können viel feinere Relevanzentscheidungen treffen — sind aber langsam.

Lösung: Zwei-Stufen-Retrieval.

Erste Stufe: Embedding- oder Hybrid Search, Top-100 Treffer.
Zweite Stufe: Cross-Encoder-Reranker sortiert die Top-100 neu, gibt Top-5 oder Top-10 zurück.

Produktive Reranker 2026:

bge-reranker-v2-m3. Open-Weight, mehrsprachig, gute Qualität.
Cohere Rerank v3. Closed-API, sehr gute Qualität.
Jina Reranker. Open-Source und Cloud, mehrsprachig.

Ein Reranking-Schritt bringt typisch nochmal 10–20% Qualität — auf einer schon optimierten Hybrid-Search-Basis. Es ist der Standard-Hebel für Enterprise-RAG, sobald die ersten Schritte gemacht sind.

5. GraphRAG und Knowledge Graphs

Manche Anfragen verlangen mehr als Ähnlichkeit — sie verlangen Beziehungen. Welche Verträge mit Lieferanten in Region X sind 2025 verlängert worden? Welche Klauseln widersprechen Klausel 4.2? Solche Fragen sind mit Embedding-Suche schwer zu beantworten, weil die relevanten Verbindungen explizit gemacht werden müssen.

GraphRAG kombiniert Retrieval mit einem Knowledge Graph — einer strukturierten Repräsentation von Entitäten (Verträge, Klauseln, Personen, Produkte) und Beziehungen (verlängert-von, widerspricht, lieferte-an).

Architekturen 2026:

Microsoft GraphRAG. Erzeugt Knowledge Graphs automatisch aus Dokumenten via LLM-Extraktion. Open-Source.
Cognee. Ähnlicher Ansatz, fokussiert auf Memory-Graphen für Agenten.
Hand-kuratierte Graphen. Wenn die Domäne klar strukturiert ist (Recht, Compliance, Engineering), lohnt sich ein eigener Graph statt LLM-Extraktion.

Backends: Neo4j, ArangoDB, FalkorDB (Redis-basiert), Postgres mit Apache AGE. Wahl je nach Volumen und bestehender Infrastruktur.

GraphRAG ist aufwändiger als reines Embedding-RAG, lohnt aber dort, wo Beziehungen wichtiger sind als Inhalte.

6. Agentic Retrieval — adaptive Suche

Ein zusätzlicher Hebel 2026: Statt einer einzigen Such-Anfrage führt ein Agent mehrere adaptive Anfragen durch.

Query Decomposition. Komplexe Fragen werden in Unteranfragen zerlegt, jede einzeln gesucht.
Hypothesis-Generation (HyDE). Das LLM generiert eine hypothetische Antwort, deren Embedding für die Suche genutzt wird — oft präziser als die ursprüngliche Frage.
Iterative Retrieval. Erste Ergebnisse motivieren weitere Anfragen, bis genug Kontext gesammelt ist.

Diese Techniken kosten zusätzliche Token und Latenz, lohnen aber bei schwierigen Anfragen. Reasoning-Modelle (siehe Reasoning Models) sind besonders gut darin.

7. Praxis: Aufbau einer produktiven Pipeline

Empfohlene Schritte:

Basis-Pipeline mit Hybrid Search. Embeddings + BM25, RRF-Fusion. Sofortiger Qualitätssprung gegenüber reinem Vector-Search.
Eval-Suite. 50–200 reale Fragen mit erwarteten Quellen. Recall@10, MRR messen.
Reranker einbauen. Cross-Encoder auf Top-100. Eval messen.
Chunking iterieren. Größe, Overlap, Strategie. Oft der größte Hebel.
GraphRAG, wenn nötig. Bei stark vernetzten Domänen.
Agentic Retrieval, wenn Anfragen komplex. Mit Reasoning-Backbone.

Moderne KI-Suche ist 2026 eine Disziplin mit klaren Best Practices und produktiver Tool-Landschaft. Wer reines Vector-Search einsetzt, lässt 20–50% Qualität liegen. Wer Hybrid Search, Reranking und gegebenenfalls GraphRAG kombiniert, baut RAG-Systeme, die im Enterprise-Alltag tragen. Die Schlüssel-Disziplin bleibt die Eval-Pipeline — ohne sie ist jede Optimierung Glücksspiel. Mit ihr wird Retrieval-Qualität zu einer planbaren Engineering-Größe. Mehr zum operativen Betrieb in LLMOps.

Hybrid Search, Reranking und GraphRAG: Wie moderne KI-Suche präziser wird