Streaming response (streamování odpovědi)
Postupné odesílání odpovědi LLM po jednotlivých tokenech, díky kterému uživatel vidí text okamžitě.
Co je streaming response?
Streaming response (streamování) je způsob, jakým LLM vrací odpověď - ne naráz jako jeden blok, ale po jednotlivých tokenech, jakmile je model vygeneruje. Uživatel vidí text „psát se" v reálném čase, podobně jako v ChatGPT.
Jak streaming funguje
- Klient odešle HTTP požadavek s parametrem
stream: truena API. - Server otevře dlouhodobé spojení (Server-Sent Events - SSE) a posílá tokeny ihned po jejich generování.
- Klient přijímá kousky odpovědi a postupně je vykresluje.
Výhody streamování
- Vnímaná rychlost: Uživatel vidí první slova po milisekundách místo čekání několika sekund
- Lepší UX chatbotů: Konverzace působí přirozeněji, uživatel může odpověď přerušit
- Time to first token (TTFT): Důležitá metrika u chatbotů a asistentů
Nevýhody
- Složitější zpracování na straně klienta (průběžný parsing)
- Pro strukturovaný výstup (např. JSON) je nutné počkat na celou odpověď nebo řešit průběžný parsing