Multimodal

Modèles qui peuvent traiter et générer plusieurs types de média : texte, image, audio, vidéo.

Les modèles multimodaux (Claude 4, GPT-4o, Gemini) acceptent en input et raisonnent sur du texte plus des images, audio ou vidéo. Pour les workflows production, le multimodal active de nouveaux use cases : analyse de photos de dégâts en sinistres, screenshots dans le support, vidéos dans la modération de contenu.

Termes liés

LLM (Large Language Model)

Un grand modèle de langage entraîné sur des corpus textuels massifs, capable de générer et raisonner sur du texte.

Foundation model

Grand modèle pré-entraîné qui sert de base à toutes les applications IA dans une famille de modèles.

Fenêtre de contexte

Quantité maximale de tokens (input + output) qu'un LLM peut traiter en un seul call.

Modèle frontier

Le modèle de plus haute capacité disponible chez un fournisseur, optimisé pour le reasoning à fort enjeu.

On utilise ça chaque semaine

Réserver un appel de 30 min

Réservez un appel de 30 min et on vous montre comment Multimodal apparaît dans un engagement réel qu'on opère.

Réserver un appel de 30 min