Web scraping (stahování dat z webu)
Automatizovaný proces extrakce dat z webových stránek pro jejich další zpracování nebo uložení.
Co je web scraping?
Web scraping (česky také stahování dat z webu nebo sklízení dat) je automatizovaný proces, při kterém software stahuje obsah webových stránek a extrahuje z nich strukturovaná data - texty, ceny, kontakty nebo jiné informace.
Jak web scraping funguje
- Robot načte HTML kód webové stránky (jako prohlížeč, ale bez zobrazení).
- Parsuje HTML a extrahuje požadovaná data (nadpisy, odstavce, tabulky).
- Data se uloží do strukturovaného formátu (JSON, CSV) nebo přímo do databáze.
Využití v RAG systémech
Scraping je klíčový nástroj při budování RAG znalostní báze - umožňuje automaticky stáhnout obsah celého webu (s využitím sitemapy), převést ho na Markdown a uložit do vektorové databáze.
Právní aspekty
Před scrapingem vždy ověřte podmínky použití webu a soubor robots.txt. Některé weby scraping výslovně zakazují.