Definierter Begriff
Guardrails
Deterministische Validatoren, die ein Modell umhüllen, um bösartige Eingaben zu blockieren und Output-Konformität durchzusetzen.
Guardrails umhüllen das Modell mit deterministischen Validatoren: Input-Filter (blockieren Prompt-Injection, PII-Leakage), Output-Filter (blockieren sensiblen Content, erzwingen JSON-Schema, prüfen Zitate) und Policy-Enforcer (verweigern Out-of-Scope-Anfragen). Produktionsreife Guardrails enthalten Logging und ein Escape-Ventil zur menschlichen Review.
Verwandte Begriffe
Prompt-Injection
Angriff, bei dem bösartiger Input einen LLM manipuliert, Anweisungen zu ignorieren oder unbeabsichtigte Aktionen auszuführen.
KI-Governance
Richtlinien, Prozesse und Kontrollen, die ein KI-System auditierbar und rechenschaftspflichtig machen.
Grounding
Modell-Output an verifizierbares Quellmaterial verankern, um Halluzinationen zu reduzieren.
Halluzination
Wenn ein LLM plausibel klingenden, aber faktisch falschen, erfundenen oder durch seine Quellen nicht gestützten Inhalt generiert.
Wir nutzen das jede Woche
30-Minuten-Gespräch buchen
Buchen Sie ein 30-Minuten-Gespräch und wir zeigen Ihnen, wie Guardrails in einem laufenden Engagement aussieht.
30-Minuten-Gespräch buchen