info Otevřen novým pracovním výzvám! Kontaktujte mě
Daniel Hladík AI Automation Engineer

← Všechny pojmy

Token (v kontextu LLM)

Základní jednotka textu, se kterou pracují LLM modely - přibližně 3/4 anglického slova nebo 2–3 znaky.

Co je token?

Token je nejmenší jednotka textu, se kterou velké jazykové modely (LLM) pracují. Nejde o celá slova - model text nejprve rozseká na tokeny (části slov, slova nebo interpunkci) a teprve s nimi počítá.

Jak velký je token?

  • V angličtině: přibližně 3/4 slova (100 slov ≈ 133 tokenů)
  • V češtině: tokenů bývá více, protože slovanské jazyky mají složitější morfologii
  • Čísla, interpunkce a speciální znaky mohou být samostatné tokeny

Proč na tokenech záleží

  • Cena: API volání LLM modelů se platí za tokeny (vstupní + výstupní)
  • Limity: Kontextové okno modelu je také vyjádřeno v tokenech
  • Chunking: Při dělení dokumentů pro RAG se velikost chunku typicky měří v tokenech