Bias v AI (předpojatost)
Systematické zkreslení AI modelu, které vzniká z trénovacích dat a vede k nespravedlivým nebo chybným výstupům.
Co je bias v AI?
Bias (česky předpojatost nebo zkreslení) je systematická chyba v chování AI modelu. Model neodpovídá neutrálně, ale s tendencí určitým směrem - například preferuje určité demografické skupiny, přebírá společenské stereotypy nebo má politicky zabarvené názory. Bias vzniká převážně v trénovacích datech a je dědičný - LLM se učí na textech od lidí, tedy včetně jejich předsudků.
Typy bias
- Data bias: Trénovací data nereprezentují realitu proporčně (např. více mužských než ženských postav v IT)
- Selection bias: Výběr dat je zkreslený - např. internet obsahuje převážně anglický obsah
- Confirmation bias: Model posiluje převládající názory, protože se v datech objevují nejčastěji
- Labeling bias: Anotátoři při labelování promítnou do dat své vlastní předsudky
Jak bias omezit
- Pečlivá příprava a diverzifikace trénovacích dat
- RLHF (Reinforcement Learning from Human Feedback) a bezpečnostní ladění
- Guardrails a výstupní filtry pro citlivé oblasti
- Pravidelné audity odpovědí - testy na známých benchmarcích biasu
- Jasné instrukce v systémovém promptu, kdy se model má zdržet názoru
- Úprava modelu přes fine-tuning na vyváženějších datech
Bias úzce souvisí s halucinacemi - obojí jsou důvody, proč u klíčových rozhodnutí ponechat člověka v procesu.