Terme défini
Architecture Multi-LLM
Router différentes tâches vers différents modèles selon les tradeoffs coût, qualité, latence et capacité.
L'architecture multi-LLM utilise plus d'un foundation model dans le même produit. Une tâche de classification peut aller vers un petit modèle rapide, une summarization vers un modèle mid-tier, et une étape de reasoning à fort enjeu vers un modèle frontier. Le router peut être basé sur des règles (par type de tâche) ou appris. Le multi-LLM permet d'optimiser le coût par call sans sacrifier la qualité sur les étapes qui comptent.
Termes liés
Modèle frontier
Le modèle de plus haute capacité disponible chez un fournisseur, optimisé pour le reasoning à fort enjeu.
IA agentique
Systèmes IA capables de planifier, exécuter des actions multi-étapes et utiliser des outils pour compléter des tâches en autonomie.
Agent autonome
Un agent IA qui complète une tâche définie sans intervention humaine à chaque étape.
RAG (Retrieval-Augmented Generation)
Génération ancrée dans des sources documentaires récupérées plutôt que dans la mémoire paramétrique seule du modèle.
On utilise ça chaque semaine
Réserver un appel de 30 min
Réservez un appel de 30 min et on vous montre comment Architecture Multi-LLM apparaît dans un engagement réel qu'on opère.
Réserver un appel de 30 min