Token (v kontextu LLM)

Základní jednotka textu, se kterou pracují LLM modely - přibližně 3/4 anglického slova nebo 2–3 znaky.

Co je token?

Token je nejmenší jednotka textu, se kterou velké jazykové modely (LLM) pracují. Nejde o celá slova - model text nejprve rozseká na tokeny (části slov, slova nebo interpunkci) a teprve s nimi počítá.

Jak velký je token?

V angličtině: přibližně 3/4 slova (100 slov ≈ 133 tokenů)
V češtině: tokenů bývá více, protože slovanské jazyky mají složitější morfologii
Čísla, interpunkce a speciální znaky mohou být samostatné tokeny

Proč na tokenech záleží

Cena: API volání LLM modelů se platí za tokeny (vstupní + výstupní)
Limity: Kontextové okno modelu je také vyjádřeno v tokenech
Chunking: Při dělení dokumentů pro RAG se velikost chunku typicky měří v tokenech

🍪 Pár slov o cookies

Token (v kontextu LLM)

Co je token?

Jak velký je token?

Proč na tokenech záleží