Retour au glossaire/Évaluation & qualité

Terme défini

Harnais d'évaluation

Test framework automatisé qui score les sorties IA contre un test set labellisé avant promotion en production.

Un harnais d'évaluation exécute chaque version candidate de prompt contre un test set labellisé, mesure l'accuracy, le hallucination rate, l'output validity et autres métriques spécifiques au workflow. Sans harnais, les changements de prompt sont des paris ; avec, ils deviennent des décisions instrumentées. Les harnais production tournent en CI, bloquent les régressions et compoundent en valeur — chaque incident production ajoute un cas au test set.

Termes liés

On utilise ça chaque semaine

Réserver un appel de 30 min

Réservez un appel de 30 min et on vous montre comment Harnais d'évaluation apparaît dans un engagement réel qu'on opère.

Réserver un appel de 30 min