Prompt injection

Attaque où l'input malveillant manipule le LLM pour ignorer ses instructions ou exécuter des actions non voulues.

Les attaques par prompt injection embarquent des instructions dans le contenu user-provided, faisant agir le modèle contre son but original. Les exemples incluent « ignore les instructions précédentes » dans un email, des URLs malveillantes dans le retrieval context, ou des données cachées dans des images. La défense est en couches : input filters, output validation, action approval queues.

Termes liés

Guardrails

Validateurs déterministes qui encapsulent un modèle pour bloquer les entrées malveillantes et imposer la conformité de sortie.

Tool use

Capacité d'un LLM à invoquer des capabilities déterministes — APIs, bases de données, exécution de code — dans sa réponse.

Grounding

Ancrer la sortie d'un modèle dans un matériel source vérifiable pour réduire les hallucinations.

Hallucination

Quand un LLM génère du contenu plausible mais factuellement faux, fabriqué, ou non supporté par ses sources.

On utilise ça chaque semaine

Réserver un appel de 30 min

Réservez un appel de 30 min et on vous montre comment Prompt injection apparaît dans un engagement réel qu'on opère.

Réserver un appel de 30 min