Terme défini
Harnais d'évaluation
Test framework automatisé qui score les sorties IA contre un test set labellisé avant promotion en production.
Un harnais d'évaluation exécute chaque version candidate de prompt contre un test set labellisé, mesure l'accuracy, le hallucination rate, l'output validity et autres métriques spécifiques au workflow. Sans harnais, les changements de prompt sont des paris ; avec, ils deviennent des décisions instrumentées. Les harnais production tournent en CI, bloquent les régressions et compoundent en valeur — chaque incident production ajoute un cas au test set.
Termes liés
Test set labellisé
Une collection d'inputs avec sorties attendues, utilisée pour évaluer les versions de prompts avant promotion.
Versioning de prompts
Traiter les prompts comme du code : stockés, diffés, reviewés et rollbackés comme n'importe quel artefact production.
Gouvernance IA
Politiques, processus et contrôles qui rendent un système IA auditable et accountable.
Score de confiance
Un scalaire qui estime à quel point la sortie d'un modèle est fiable pour une entrée donnée.
On utilise ça chaque semaine
Réserver un appel de 30 min
Réservez un appel de 30 min et on vous montre comment Harnais d'évaluation apparaît dans un engagement réel qu'on opère.
Réserver un appel de 30 min