Definierter Begriff
Prompt-Injection
Angriff, bei dem bösartiger Input einen LLM manipuliert, Anweisungen zu ignorieren oder unbeabsichtigte Aktionen auszuführen.
Prompt-Injection-Angriffe betten Anweisungen in user-provided Content ein und bringen das Modell dazu, gegen sein ursprüngliches Ziel zu handeln. Beispiele: „Ignore previous instructions" in einer Email, bösartige URLs im Retrieval-Context oder versteckte Daten in Bildern. Verteidigung ist mehrschichtig: Input-Filter, Output-Validation, Action-Approval-Queues.
Verwandte Begriffe
Guardrails
Deterministische Validatoren, die ein Modell umhüllen, um bösartige Eingaben zu blockieren und Output-Konformität durchzusetzen.
Tool-Use
Fähigkeit eines LLM, deterministische Funktionen — APIs, Datenbanken, Code-Ausführung — als Teil seiner Antwort aufzurufen.
Grounding
Modell-Output an verifizierbares Quellmaterial verankern, um Halluzinationen zu reduzieren.
Halluzination
Wenn ein LLM plausibel klingenden, aber faktisch falschen, erfundenen oder durch seine Quellen nicht gestützten Inhalt generiert.
Wir nutzen das jede Woche
30-Minuten-Gespräch buchen
Buchen Sie ein 30-Minuten-Gespräch und wir zeigen Ihnen, wie Prompt-Injection in einem laufenden Engagement aussieht.
30-Minuten-Gespräch buchen