Terme défini

Architecture Multi-LLM

Router différentes tâches vers différents modèles selon les tradeoffs coût, qualité, latence et capacité.

L'architecture multi-LLM utilise plus d'un foundation model dans le même produit. Une tâche de classification peut aller vers un petit modèle rapide, une summarization vers un modèle mid-tier, et une étape de reasoning à fort enjeu vers un modèle frontier. Le router peut être basé sur des règles (par type de tâche) ou appris. Le multi-LLM permet d'optimiser le coût par call sans sacrifier la qualité sur les étapes qui comptent.

Termes liés

Modèle frontier

Le modèle de plus haute capacité disponible chez un fournisseur, optimisé pour le reasoning à fort enjeu.

IA agentique

Systèmes IA capables de planifier, exécuter des actions multi-étapes et utiliser des outils pour compléter des tâches en autonomie.

Agent autonome

Un agent IA qui complète une tâche définie sans intervention humaine à chaque étape.

RAG (Retrieval-Augmented Generation)

Génération ancrée dans des sources documentaires récupérées plutôt que dans la mémoire paramétrique seule du modèle.

On utilise ça chaque semaine

Réserver un appel de 30 min

Réservez un appel de 30 min et on vous montre comment Architecture Multi-LLM apparaît dans un engagement réel qu'on opère.

Réserver un appel de 30 min