Definierter Begriff
Evaluation-Harness
Automatisiertes Test-Framework, das KI-Outputs gegen ein labelled Test-Set vor Produktions-Promotion scort.
Ein Evaluation-Harness führt jede Kandidaten-Prompt-Version gegen ein labelled Test-Set aus, misst Genauigkeit, Halluzinationsrate, Output-Validität und andere workflow-spezifische Metriken. Ohne Harness sind Prompt-Änderungen Wetten; mit Harness werden sie instrumentierte Entscheidungen. Produktions-Harnesse laufen in CI, blockieren Regressionen und akkumulieren Wert — jeder Produktionsvorfall fügt einen Case zum Test-Set hinzu.
Verwandte Begriffe
Labelled Test-Set
Eine Sammlung von Inputs mit erwarteten Outputs, verwendet zur Evaluation von Prompt-Versionen vor Promotion.
Prompt-Versionierung
Prompts wie Code behandeln: gespeichert, diff'd, reviewed und rollback-fähig wie jedes Produktionsartefakt.
KI-Governance
Richtlinien, Prozesse und Kontrollen, die ein KI-System auditierbar und rechenschaftspflichtig machen.
Confidence-Score
Ein Skalar, der schätzt, wie zuverlässig der Output eines Modells für einen gegebenen Input ist.
Wir nutzen das jede Woche
30-Minuten-Gespräch buchen
Buchen Sie ein 30-Minuten-Gespräch und wir zeigen Ihnen, wie Evaluation-Harness in einem laufenden Engagement aussieht.
30-Minuten-Gespräch buchen