Terme défini
Score de confiance
Un scalaire qui estime à quel point la sortie d'un modèle est fiable pour une entrée donnée.
Les confidence scores viennent des logprobs, classificateurs calibrés, accord d'ensemble ou force du grounding. Ils pilotent les décisions de routage : haute confiance passe, faible confiance route vers la reviewer queue. La calibration des confidence scores contre les outcomes réels fait partie du cycle de vie du harnais d'évaluation.
Termes liés
File de reviewer
Workflow où les sorties IA à faible confiance ou à fort impact sont routées vers un humain pour approbation.
Harnais d'évaluation
Test framework automatisé qui score les sorties IA contre un test set labellisé avant promotion en production.
Versioning de prompts
Traiter les prompts comme du code : stockés, diffés, reviewés et rollbackés comme n'importe quel artefact production.
Test set labellisé
Une collection d'inputs avec sorties attendues, utilisée pour évaluer les versions de prompts avant promotion.
On utilise ça chaque semaine
Réserver un appel de 30 min
Réservez un appel de 30 min et on vous montre comment Score de confiance apparaît dans un engagement réel qu'on opère.
Réserver un appel de 30 min