Test set labellisé

Une collection d'inputs avec sorties attendues, utilisée pour évaluer les versions de prompts avant promotion.

Les test sets labellisés sont la fondation de la qualité IA en production : 200-1000 cases minimum, couvrant routine + edge cases + adversarial. Chaque case a une expected output reviewée par un SME. Les harnais d'évaluation tournent contre le test set ; aucun prompt ne promote sans atteindre la barre de pass rate (typiquement 90-95%).

Termes liés

Harnais d'évaluation

Test framework automatisé qui score les sorties IA contre un test set labellisé avant promotion en production.

Versioning de prompts

Traiter les prompts comme du code : stockés, diffés, reviewés et rollbackés comme n'importe quel artefact production.

Score de confiance

Un scalaire qui estime à quel point la sortie d'un modèle est fiable pour une entrée donnée.

On utilise ça chaque semaine

Réserver un appel de 30 min

Réservez un appel de 30 min et on vous montre comment Test set labellisé apparaît dans un engagement réel qu'on opère.

Réserver un appel de 30 min