Retour au glossaire/Évaluation & qualité

Terme défini

Test set labellisé

Une collection d'inputs avec sorties attendues, utilisée pour évaluer les versions de prompts avant promotion.

Les test sets labellisés sont la fondation de la qualité IA en production : 200-1000 cases minimum, couvrant routine + edge cases + adversarial. Chaque case a une expected output reviewée par un SME. Les harnais d'évaluation tournent contre le test set ; aucun prompt ne promote sans atteindre la barre de pass rate (typiquement 90-95%).

Termes liés

On utilise ça chaque semaine

Réserver un appel de 30 min

Réservez un appel de 30 min et on vous montre comment Test set labellisé apparaît dans un engagement réel qu'on opère.

Réserver un appel de 30 min