Retour au glossaire/Gouvernance & risque

Terme défini

Prompt injection

Attaque où l'input malveillant manipule le LLM pour ignorer ses instructions ou exécuter des actions non voulues.

Les attaques par prompt injection embarquent des instructions dans le contenu user-provided, faisant agir le modèle contre son but original. Les exemples incluent « ignore les instructions précédentes » dans un email, des URLs malveillantes dans le retrieval context, ou des données cachées dans des images. La défense est en couches : input filters, output validation, action approval queues.

Termes liés

On utilise ça chaque semaine

Réserver un appel de 30 min

Réservez un appel de 30 min et on vous montre comment Prompt injection apparaît dans un engagement réel qu'on opère.

Réserver un appel de 30 min