Terme défini
Prompt injection
Attaque où l'input malveillant manipule le LLM pour ignorer ses instructions ou exécuter des actions non voulues.
Les attaques par prompt injection embarquent des instructions dans le contenu user-provided, faisant agir le modèle contre son but original. Les exemples incluent « ignore les instructions précédentes » dans un email, des URLs malveillantes dans le retrieval context, ou des données cachées dans des images. La défense est en couches : input filters, output validation, action approval queues.
Termes liés
Guardrails
Validateurs déterministes qui encapsulent un modèle pour bloquer les entrées malveillantes et imposer la conformité de sortie.
Tool use
Capacité d'un LLM à invoquer des capabilities déterministes — APIs, bases de données, exécution de code — dans sa réponse.
Grounding
Ancrer la sortie d'un modèle dans un matériel source vérifiable pour réduire les hallucinations.
Hallucination
Quand un LLM génère du contenu plausible mais factuellement faux, fabriqué, ou non supporté par ses sources.
On utilise ça chaque semaine
Réserver un appel de 30 min
Réservez un appel de 30 min et on vous montre comment Prompt injection apparaît dans un engagement réel qu'on opère.
Réserver un appel de 30 min