Zurück zum Glossar/Governance & Risiko

Definierter Begriff

Prompt-Injection

Angriff, bei dem bösartiger Input einen LLM manipuliert, Anweisungen zu ignorieren oder unbeabsichtigte Aktionen auszuführen.

Prompt-Injection-Angriffe betten Anweisungen in user-provided Content ein und bringen das Modell dazu, gegen sein ursprüngliches Ziel zu handeln. Beispiele: „Ignore previous instructions" in einer Email, bösartige URLs im Retrieval-Context oder versteckte Daten in Bildern. Verteidigung ist mehrschichtig: Input-Filter, Output-Validation, Action-Approval-Queues.

Verwandte Begriffe

Wir nutzen das jede Woche

30-Minuten-Gespräch buchen

Buchen Sie ein 30-Minuten-Gespräch und wir zeigen Ihnen, wie Prompt-Injection in einem laufenden Engagement aussieht.

30-Minuten-Gespräch buchen