Definierter Begriff
Confidence-Score
Ein Skalar, der schätzt, wie zuverlässig der Output eines Modells für einen gegebenen Input ist.
Confidence-Scores kommen aus Logprobs, kalibrierten Klassifikatoren, Ensemble-Agreement oder Grounding-Stärke. Sie treiben Routing-Entscheidungen: Hohe Confidence fließt durch, niedrige Confidence wird zur Reviewer-Queue geroutet. Die Kalibrierung von Confidence-Scores gegen reale Outcomes ist Teil des Evaluation-Harness-Lifecycles.
Verwandte Begriffe
Reviewer-Queue
Ein Workflow, bei dem KI-Outputs mit niedriger Confidence oder hohem Impact zur Freigabe an einen Menschen geroutet werden.
Evaluation-Harness
Automatisiertes Test-Framework, das KI-Outputs gegen ein labelled Test-Set vor Produktions-Promotion scort.
Prompt-Versionierung
Prompts wie Code behandeln: gespeichert, diff'd, reviewed und rollback-fähig wie jedes Produktionsartefakt.
Labelled Test-Set
Eine Sammlung von Inputs mit erwarteten Outputs, verwendet zur Evaluation von Prompt-Versionen vor Promotion.
Wir nutzen das jede Woche
30-Minuten-Gespräch buchen
Buchen Sie ein 30-Minuten-Gespräch und wir zeigen Ihnen, wie Confidence-Score in einem laufenden Engagement aussieht.
30-Minuten-Gespräch buchen