Definierter Begriff
Labelled Test-Set
Eine Sammlung von Inputs mit erwarteten Outputs, verwendet zur Evaluation von Prompt-Versionen vor Promotion.
Labelled Test-Sets sind die Grundlage der KI-Qualität in Produktion: 200-1000 Cases Minimum, abdeckend Routine + Edge-Cases + Adversarial. Jeder Case hat einen Expected Output, reviewed von einem SME. Evaluation-Harnesse laufen gegen das Test-Set; kein Prompt promoted ohne die Pass-Rate-Schwelle zu erreichen (typisch 90-95%).
Verwandte Begriffe
Evaluation-Harness
Automatisiertes Test-Framework, das KI-Outputs gegen ein labelled Test-Set vor Produktions-Promotion scort.
Prompt-Versionierung
Prompts wie Code behandeln: gespeichert, diff'd, reviewed und rollback-fähig wie jedes Produktionsartefakt.
Confidence-Score
Ein Skalar, der schätzt, wie zuverlässig der Output eines Modells für einen gegebenen Input ist.
Wir nutzen das jede Woche
30-Minuten-Gespräch buchen
Buchen Sie ein 30-Minuten-Gespräch und wir zeigen Ihnen, wie Labelled Test-Set in einem laufenden Engagement aussieht.
30-Minuten-Gespräch buchen