Multimodální model
AI model, který zpracovává více typů vstupu současně - text, obrázky, zvuk i video.
Co je multimodální model?
Multimodální model je typ LLM, který si kromě textu rozumí i s dalšími „modalitami" - obrázky, zvukem, videem, PDF. Neřeší každý vstup zvlášť, ale pracuje s nimi společně: dokáže např. popsat fotku, přečíst graf z obrázku nebo na základě skici vygenerovat HTML.
Příklady multimodálních modelů
- GPT-4o (OpenAI) - text, obraz, zvuk, video
- Claude 3.5 Sonnet (Anthropic) - text a obraz (včetně PDF a grafů)
- Gemini 1.5 Pro (Google) - text, obraz, zvuk, video, kód
Typické use casy
- Extrakce dat z naskenovaných faktur a smluv (alternativa k OCR + parsing)
- Popis produktových fotografií pro e-shop
- Kontrola kvality - foto výrobku + textový popis závady
- Přepis a shrnutí audio záznamů schůzek
Co si ohlídat
- Obrázky spotřebovávají výrazně více tokenů než text - hlídejte cenu
- Kontextové okno platí i pro obrazové vstupy
- Kvalita rozpoznání klesá u malého písma nebo nekvalitních skenů