info Otevřen novým pracovním výzvám! Kontaktujte mě
Daniel Hladík AI Automation Engineer

← Všechny pojmy

Streaming response (streamování odpovědi)

Postupné odesílání odpovědi LLM po jednotlivých tokenech, díky kterému uživatel vidí text okamžitě.

Co je streaming response?

Streaming response (streamování) je způsob, jakým LLM vrací odpověď - ne naráz jako jeden blok, ale po jednotlivých tokenech, jakmile je model vygeneruje. Uživatel vidí text „psát se" v reálném čase, podobně jako v ChatGPT.

Jak streaming funguje

  1. Klient odešle HTTP požadavek s parametrem stream: true na API.
  2. Server otevře dlouhodobé spojení (Server-Sent Events - SSE) a posílá tokeny ihned po jejich generování.
  3. Klient přijímá kousky odpovědi a postupně je vykresluje.

Výhody streamování

  • Vnímaná rychlost: Uživatel vidí první slova po milisekundách místo čekání několika sekund
  • Lepší UX chatbotů: Konverzace působí přirozeněji, uživatel může odpověď přerušit
  • Time to first token (TTFT): Důležitá metrika u chatbotů a asistentů

Nevýhody

  • Složitější zpracování na straně klienta (průběžný parsing)
  • Pro strukturovaný výstup (např. JSON) je nutné počkat na celou odpověď nebo řešit průběžný parsing