Definierter Begriff

RAG (Retrieval-Augmented Generation)

Generierung verankert in abgerufenen Quelldokumenten statt nur in der parametrischen Modell-Memory.

Retrieval-Augmented Generation ist das Muster, bei dem eine Anfrage zuerst genutzt wird, um relevante Passagen aus einer kuratierten Quelle (Vector-Store, Search-Index, Datenbank) abzurufen, die dann dem Modell als Kontext für die Antwort übergeben werden. RAG reduziert Halluzinationen bei faktischen Anfragen, ermöglicht Antworten mit Quellenangabe und hält das System aktuell ohne Retraining. Produktions-RAG erfordert Quellen-Kuration, Chunking-Strategie, Embeddings, Retrieval-Evaluation und Antwort-Evaluation.

Wann es zählt

Nutzen Sie RAG, wenn faktische Genauigkeit das Zitieren spezifischen Quellmaterials erfordert (Policy, Verträge, Kundenhistorie). Überspringen Sie RAG, wenn das parametrische Wissen des Modells ausreicht oder wenn Latenz kritisch ist.

Realbeispiel

Ein Support-Agent, der die 5 relevantesten vergangenen Tickets + die Produktkonfiguration des Kunden + die relevanten Policy-Passagen abruft und dann eine gegroundete Antwort mit Inline-Zitaten generiert, die der Agent in unter 10 Sekunden verifizieren kann.

Beobachtete KPIs

Retrieval-Precision@5 (>0,75 Ziel), Groundedness-Rate der Antworten (>90%), Quellenzitat-Vollständigkeit (100% bei faktischen Claims).

Verwandte Begriffe

Wir nutzen das jede Woche

30-Minuten-Gespräch buchen

Buchen Sie ein 30-Minuten-Gespräch und wir zeigen Ihnen, wie RAG (Retrieval-Augmented Generation) in einem laufenden Engagement aussieht.

30-Minuten-Gespräch buchen