Terme défini
RAG (Retrieval-Augmented Generation)
Génération ancrée dans des sources documentaires récupérées plutôt que dans la mémoire paramétrique seule du modèle.
Le Retrieval-Augmented Generation est le pattern où une requête est d'abord utilisée pour récupérer des passages pertinents depuis une source curée (vector store, search index, base de données), passages qui sont ensuite passés au modèle comme contexte pour la réponse. RAG réduit les hallucinations sur les requêtes factuelles, permet aux réponses de citer leurs sources, et laisse le système rester à jour sans réentraînement. Un RAG en production nécessite curation des sources, stratégie de chunking, embeddings, évaluation du retrieval et évaluation des réponses.
Quand ça compte
Utilisez RAG quand la précision factuelle exige de citer un matériel source spécifique (politique, contrats, historique client). Évitez RAG quand la connaissance paramétrique du modèle suffit ou quand la latence est critique.
Exemple concret
Un agent support qui récupère les 5 tickets passés les plus pertinents + la config produit du client + les passages politique pertinents, puis génère une réponse groundée avec citations inline que l'agent peut vérifier en moins de 10 secondes.
KPI à surveiller
Retrieval precision@5 (>0,75 cible), groundedness rate des réponses (>90%), citation source complète (100% sur claims factuels).
Termes liés
Embeddings
Représentations vectorielles denses de texte (ou autres données) qui capturent le sens sémantique pour la recherche par similarité.
Vector store
Base de données spécialisée pour stocker et chercher des embeddings vectoriels à grande échelle.
Grounding
Ancrer la sortie d'un modèle dans un matériel source vérifiable pour réduire les hallucinations.
IA agentique
Systèmes IA capables de planifier, exécuter des actions multi-étapes et utiliser des outils pour compléter des tâches en autonomie.
On utilise ça chaque semaine
Réserver un appel de 30 min
Réservez un appel de 30 min et on vous montre comment RAG (Retrieval-Augmented Generation) apparaît dans un engagement réel qu'on opère.
Réserver un appel de 30 min