Chunking
Proces rozdělení dlouhého textu na menší, logické celky (chunky) pro efektivní zpracování v RAG systémech.
Co je chunking?
Chunking je proces rozdělení dlouhého textu na menší, logické celky - tzv. chunky (kousky). Jde o klíčový krok při přípravě dat pro RAG systémy.
Proč je chunking důležitý
LLM modely mají omezené kontextové okno. Místo předhození celého dokumentu najednou se modelu předloží pouze relevantní kousky, čímž se šetří tokeny a zvyšuje přesnost odpovědí.
Typické parametry
- Velikost chunku: 500–1 000 znaků
- Překryv: 10–20 % - aby se neztratil kontext mezi sousedními chunky
- Dělení: Podle odstavců, nadpisů nebo logických celků