info Otevřen novým pracovním výzvám! Kontaktujte mě
Daniel Hladík AI Automation Engineer

← Všechny pojmy

Multimodální model

AI model, který zpracovává více typů vstupu současně - text, obrázky, zvuk i video.

Co je multimodální model?

Multimodální model je typ LLM, který si kromě textu rozumí i s dalšími „modalitami" - obrázky, zvukem, videem, PDF. Neřeší každý vstup zvlášť, ale pracuje s nimi společně: dokáže např. popsat fotku, přečíst graf z obrázku nebo na základě skici vygenerovat HTML.

Příklady multimodálních modelů

  • GPT-4o (OpenAI) - text, obraz, zvuk, video
  • Claude 3.5 Sonnet (Anthropic) - text a obraz (včetně PDF a grafů)
  • Gemini 1.5 Pro (Google) - text, obraz, zvuk, video, kód

Typické use casy

  • Extrakce dat z naskenovaných faktur a smluv (alternativa k OCR + parsing)
  • Popis produktových fotografií pro e-shop
  • Kontrola kvality - foto výrobku + textový popis závady
  • Přepis a shrnutí audio záznamů schůzek

Co si ohlídat

  • Obrázky spotřebovávají výrazně více tokenů než text - hlídejte cenu
  • Kontextové okno platí i pro obrazové vstupy
  • Kvalita rozpoznání klesá u malého písma nebo nekvalitních skenů