Streaming response (streamování odpovědi)

Postupné odesílání odpovědi LLM po jednotlivých tokenech, díky kterému uživatel vidí text okamžitě.

Co je streaming response?

Streaming response (streamování) je způsob, jakým LLM vrací odpověď - ne naráz jako jeden blok, ale po jednotlivých tokenech, jakmile je model vygeneruje. Uživatel vidí text „psát se" v reálném čase, podobně jako v ChatGPT.

Jak streaming funguje

Klient odešle HTTP požadavek s parametrem stream: true na API.
Server otevře dlouhodobé spojení (Server-Sent Events - SSE) a posílá tokeny ihned po jejich generování.
Klient přijímá kousky odpovědi a postupně je vykresluje.

Výhody streamování

Vnímaná rychlost: Uživatel vidí první slova po milisekundách místo čekání několika sekund
Lepší UX chatbotů: Konverzace působí přirozeněji, uživatel může odpověď přerušit
Time to first token (TTFT): Důležitá metrika u chatbotů a asistentů

Nevýhody

Složitější zpracování na straně klienta (průběžný parsing)
Pro strukturovaný výstup (např. JSON) je nutné počkat na celou odpověď nebo řešit průběžný parsing