Multimodální model

AI model, který zpracovává více typů vstupu současně - text, obrázky, zvuk i video.

Co je multimodální model?

Multimodální model je typ LLM, který si kromě textu rozumí i s dalšími „modalitami" - obrázky, zvukem, videem, PDF. Neřeší každý vstup zvlášť, ale pracuje s nimi společně: dokáže např. popsat fotku, přečíst graf z obrázku nebo na základě skici vygenerovat HTML.

Příklady multimodálních modelů

GPT-4o (OpenAI) - text, obraz, zvuk, video
Claude 3.5 Sonnet (Anthropic) - text a obraz (včetně PDF a grafů)
Gemini 1.5 Pro (Google) - text, obraz, zvuk, video, kód

Typické use casy

Extrakce dat z naskenovaných faktur a smluv (alternativa k OCR + parsing)
Popis produktových fotografií pro e-shop
Kontrola kvality - foto výrobku + textový popis závady
Přepis a shrnutí audio záznamů schůzek

Co si ohlídat

Obrázky spotřebovávají výrazně více tokenů než text - hlídejte cenu
Kontextové okno platí i pro obrazové vstupy
Kvalita rozpoznání klesá u malého písma nebo nekvalitních skenů