Token (v kontextu LLM)
Základní jednotka textu, se kterou pracují LLM modely - přibližně 3/4 anglického slova nebo 2–3 znaky.
Co je token?
Token je nejmenší jednotka textu, se kterou velké jazykové modely (LLM) pracují. Nejde o celá slova - model text nejprve rozseká na tokeny (části slov, slova nebo interpunkci) a teprve s nimi počítá.
Jak velký je token?
- V angličtině: přibližně 3/4 slova (100 slov ≈ 133 tokenů)
- V češtině: tokenů bývá více, protože slovanské jazyky mají složitější morfologii
- Čísla, interpunkce a speciální znaky mohou být samostatné tokeny
Proč na tokenech záleží
- Cena: API volání LLM modelů se platí za tokeny (vstupní + výstupní)
- Limity: Kontextové okno modelu je také vyjádřeno v tokenech
- Chunking: Při dělení dokumentů pro RAG se velikost chunku typicky měří v tokenech