Definierter Begriff
Multimodal
Modelle, die mehrere Medientypen verarbeiten und generieren können: Text, Bild, Audio, Video.
Multimodale Modelle (Claude 4, GPT-4o, Gemini) akzeptieren als Input und reasonen über Text plus Bilder, Audio oder Video. Für Produktions-Workflows ermöglicht Multimodal neue Use-Cases: Schadensfoto-Analyse in der Versicherung, Screenshots im Support, Videos in der Content-Moderation.
Verwandte Begriffe
LLM (Large Language Model)
Ein großes Sprachmodell, trainiert auf massiven Textkorpora, fähig zu Generierung und Reasoning über Text.
Foundation-Modell
Großes vortrainiertes Modell, das die Basis für alle KI-Anwendungen einer Modellfamilie bildet.
Context-Window
Maximale Menge an Tokens (Input + Output), die ein LLM in einem einzigen Call verarbeiten kann.
Frontier-Modell
Das höchstkapazitive Modell, das ein Anbieter zur Verfügung stellt, optimiert für Reasoning mit hohem Einsatz.
Wir nutzen das jede Woche
30-Minuten-Gespräch buchen
Buchen Sie ein 30-Minuten-Gespräch und wir zeigen Ihnen, wie Multimodal in einem laufenden Engagement aussieht.
30-Minuten-Gespräch buchen