Terme défini
Test set labellisé
Une collection d'inputs avec sorties attendues, utilisée pour évaluer les versions de prompts avant promotion.
Les test sets labellisés sont la fondation de la qualité IA en production : 200-1000 cases minimum, couvrant routine + edge cases + adversarial. Chaque case a une expected output reviewée par un SME. Les harnais d'évaluation tournent contre le test set ; aucun prompt ne promote sans atteindre la barre de pass rate (typiquement 90-95%).
Termes liés
Harnais d'évaluation
Test framework automatisé qui score les sorties IA contre un test set labellisé avant promotion en production.
Versioning de prompts
Traiter les prompts comme du code : stockés, diffés, reviewés et rollbackés comme n'importe quel artefact production.
Score de confiance
Un scalaire qui estime à quel point la sortie d'un modèle est fiable pour une entrée donnée.
On utilise ça chaque semaine
Réserver un appel de 30 min
Réservez un appel de 30 min et on vous montre comment Test set labellisé apparaît dans un engagement réel qu'on opère.
Réserver un appel de 30 min