Zum Inhalt springen

// journal / ki-verstehen / rag-einfach-erklaert

RAG einfach erklärt: So machen Sie Unternehmenswissen mit KI nutzbar

Retrieval-Augmented Generation (RAG) ist 2026 die Standard-Architektur für KI mit Unternehmensdaten. Was RAG genau ist, wie es funktioniert — und wie man es so baut, dass es nicht halluziniert.

Von createIF Labs
Veröffentlicht am
  • RAG
  • Wissensretrieval
  • Vector Datenbank
  • Embeddings
  • Grundlagen
Ablaufdiagramm einer RAG-Pipeline mit Embedding-Schritt, Vector-Suche und Antwortgenerierung
Schematischer Ablauf einer RAG-Pipeline: die Nutzerfrage wird in einen Vektor (Embedding) umgewandelt, anschließend werden die ähnlichsten Textstellen aus einer Vector-Datenbank geholt. Diese relevanten Chunks gehen zusammen mit der Frage an das Sprachmodell, das auf dieser Basis eine fundierte Antwort generiert.

Retrieval-Augmented Generation — kurz RAG — ist 2026 das Standardrezept, um ein Sprachmodell mit Ihren eigenen Dokumenten arbeiten zu lassen, ohne es neu zu trainieren. Dieser Beitrag erklärt das Konzept ohne ML-Vokabular und zeigt, an welchen Stellen RAG in Produktion regelmäßig scheitert.

1. Was RAG ist — in einem Satz

RAG nimmt Ihre Frage, sucht in einer Wissensdatenbank die passenden Textstellen heraus und reicht sie zusammen mit der Frage an das Sprachmodell weiter. Das Modell antwortet auf Basis der gelieferten Texte, statt aus dem allgemeinen Trainingswissen heraus.

Klingt einfach. Ist auch einfach im Konzept. Wird in der Praxis trotzdem oft falsch gebaut — die sieben häufigsten Fehler haben wir in Sieben Wege, wie RAG in Produktion versagt zusammengefasst.

2. Warum RAG, nicht Fine-Tuning?

Bei Fine-Tuning passt man die Gewichte eines Modells auf eigene Daten an. Das klingt verlockend („mein Modell mit meinem Wissen”), hat aber drei Nachteile: es kostet Training, das Modell verlernt teilweise allgemeine Fähigkeiten, und es ist schwer aktualisierbar — neues Wissen erfordert ein neues Training.

RAG ist anders: Ihre Daten bleiben außerhalb des Modells, in einer Datenbank. Sie können jederzeit Dokumente hinzufügen, entfernen oder ändern — ohne irgendetwas am Modell zu tun. Das Modell sieht jeweils nur die aktuellsten relevanten Stellen.

Faustregel: RAG für Faktenwissen, Fine-Tuning für Stil und Tone-of-Voice.

3. Wie RAG technisch funktioniert

Die Pipeline besteht aus zwei Phasen — einer einmaligen Indexierung und einer wiederholten Suche+Antwort:

Indexierung (einmal pro Dokument):

  1. Dokument wird in Chunks zerteilt (z. B. nach Abschnitten).
  2. Jeder Chunk wird zu einem Embedding (siehe nächster Abschnitt) umgewandelt.
  3. Embeddings landen in einer Vector-Datenbank, zusammen mit dem Original-Text.

Anfrage (jedes Mal, wenn ein Nutzer fragt):

  1. Nutzerfrage wird ebenfalls in ein Embedding umgewandelt.
  2. Die Vector-Datenbank liefert die k ähnlichsten Chunks.
  3. Ein Re-Ranker sortiert die Treffer fein.
  4. Die top-Treffer gehen zusammen mit der Frage als Prompt an das Sprachmodell.
  5. Das Modell antwortet — idealerweise mit Quellenangabe.

4. Embeddings — die Magie dahinter

Ein Embedding ist eine Zahlenfolge (typisch 768 oder 1024 Werte), die die Bedeutung eines Textstücks repräsentiert. Texte mit ähnlicher Bedeutung haben ähnliche Embeddings — auch wenn die Wörter sich unterscheiden. „Wie buche ich Urlaub?” und „Wo trage ich meine Abwesenheit ein?” landen im Embedding-Raum nah beieinander, obwohl kein einziges Wort identisch ist.

Das ist die Grundlage, warum RAG semantisch suchen kann statt nur nach Stichworten. Embedding-Modelle wie BGE, E5 oder die kommerziellen von OpenAI/Cohere liefern die Vektoren.

5. Vector-Datenbanken in der Praxis

Drei pragmatische Optionen, sortiert nach Aufwand:

  • pgvector (Postgres-Erweiterung) — 2026 die häufigste Wahl. Nutzt bestehende Postgres-Infrastruktur, einfache Backups, kostengünstig, skaliert bis ca. 10 Mio. Vektoren.
  • Qdrant — dedizierte Vector-Datenbank, sehr gute Performance, gute Open-Source-Lösung.
  • Weaviate — mit eingebauter Hybrid-Search (BM25 + Vektor), für größere Setups.

Für die meisten Mittelstandsanwendungen ist pgvector ausreichend. Erst wenn Sie >10 Mio. Embeddings haben oder spezielle Anforderungen (z. B. mehrstufige Filter), lohnt sich der Wechsel.

6. Was über Qualität entscheidet

Aus drei Jahren RAG-Audits: Qualität hängt nicht am Modell, sondern an der Pipeline drumherum. Die fünf wichtigsten Hebel:

  1. Chunking — semantisch geschnitten, mit Überlappung, hierarchisch.
  2. Hybrid-Search — BM25 (Stichwort) + Dense Retrieval (Embedding) statt nur Vektor.
  3. Re-Ranking — ein Cross-Encoder sortiert die Top-20 auf Top-5 fein.
  4. Metadaten-Filter — Datum, Version, Status, Bereich. Reduziert False Positives massiv.
  5. Eval-Suite — reproduzierbare Frage-Antwort-Tests vor jedem Deploy.

Detaillierter in Sieben Wege, wie RAG in Produktion versagt.

7. Wofür RAG sich besonders lohnt

RAG glänzt überall dort, wo strukturiertes Wissen auf natürliche Fragen trifft:

  • Interner Wissensassistent — über Confluence, SharePoint, Wiki. Siehe Interner KI-Assistent für Teams.
  • Kundenservice-Assistenz — Mitarbeitende finden Antworten in Ticket-Historien.
  • Compliance- und Regelwerk-Suche — Suche in Verträgen, AGBs, Richtlinien.
  • Technische Dokumentation — schneller Zugriff auf Produkt-Dokumentation, FAQ, Troubleshooting.

Wer RAG ernsthaft einsetzt, hat 2026 einen messbaren Produktivitätsvorteil — vorausgesetzt, die Pipeline ist sauber gebaut. Mehr zu praktischen Implementierungen in unseren Beiträgen zu ChatGPT mit eigenen Daten und KI für E-Mails und Dokumente.

// FAQ

Häufige Fragen.

  1. / 01Was ist der Unterschied zwischen RAG und Fine-Tuning?

    RAG liefert dem Modell die relevanten Texte als Kontext zur Laufzeit — das Modell lernt nichts dauerhaft. Fine-Tuning passt die Modellgewichte dauerhaft an Beispieldaten an. Für Wissens-Anwendungsfälle (FAQ, Dokumentation) ist RAG der bessere Weg: günstiger, transparenter, leicht aktualisierbar. Für Stil und Tone-of-Voice eignet sich Fine-Tuning.

  2. / 02Welche Vector-Datenbank sollte ich für RAG nutzen?

    pgvector (als Postgres-Erweiterung) ist 2026 für die meisten Anwendungen die pragmatischste Wahl: Sie nutzen bestehende Postgres-Infrastruktur, Backups, Tooling. Für große Datenmengen (>10 Mio. Embeddings) oder spezielle Suchanforderungen lohnt sich ein dediziertes System wie Qdrant oder Weaviate.

  3. / 03Was sind Embeddings, einfach erklärt?

    Embeddings sind Zahlenfolgen, die die Bedeutung eines Textstücks repräsentieren. Zwei Texte mit ähnlicher Bedeutung haben ähnliche Embeddings — auch wenn die Wörter sich unterscheiden. Das ist die Grundlage, warum RAG semantisch suchen kann statt nur nach Stichworten.

  4. / 04Wie groß sollte ein Chunk in der RAG-Pipeline sein?

    Typisch 300–800 Tokens, mit 15–25% Überlappung zwischen Chunks. Wichtiger als die exakte Größe ist semantisches Chunking: an natürlichen Abschnittsgrenzen (Überschriften, Absätzen) statt mitten im Satz. Schlecht geschnittene Chunks sind eine der häufigsten Ursachen für RAG-Versagen.

  5. / 05Warum halluziniert mein RAG-System trotzdem?

    Häufige Gründe: fehlendes Re-Ranking, schlechte Chunk-Strategie, zu viele Chunks im Kontext (Lost-in-the-Middle), keine Faithfulness-Eval. Die sieben häufigsten RAG-Versagensmuster haben wir in einem eigenen Beitrag zusammengefasst.

  6. / 06Kann ich RAG auch ohne Cloud-LLM nutzen?

    Ja. RAG ist eine Architektur, kein Modell. Sie können sie mit jedem Sprachmodell betreiben — von OpenAI bis Llama-3 auf Ihrem eigenen Server. Für sensible Unternehmensdaten empfehlen wir die zweite Variante.

// Weiterlesen

Weiterlesen