Terme défini
Multimodal
Modèles qui peuvent traiter et générer plusieurs types de média : texte, image, audio, vidéo.
Les modèles multimodaux (Claude 4, GPT-4o, Gemini) acceptent en input et raisonnent sur du texte plus des images, audio ou vidéo. Pour les workflows production, le multimodal active de nouveaux use cases : analyse de photos de dégâts en sinistres, screenshots dans le support, vidéos dans la modération de contenu.
Termes liés
LLM (Large Language Model)
Un grand modèle de langage entraîné sur des corpus textuels massifs, capable de générer et raisonner sur du texte.
Foundation model
Grand modèle pré-entraîné qui sert de base à toutes les applications IA dans une famille de modèles.
Fenêtre de contexte
Quantité maximale de tokens (input + output) qu'un LLM peut traiter en un seul call.
Modèle frontier
Le modèle de plus haute capacité disponible chez un fournisseur, optimisé pour le reasoning à fort enjeu.
On utilise ça chaque semaine
Réserver un appel de 30 min
Réservez un appel de 30 min et on vous montre comment Multimodal apparaît dans un engagement réel qu'on opère.
Réserver un appel de 30 min