Bias v AI (předpojatost)

Systematické zkreslení AI modelu, které vzniká z trénovacích dat a vede k nespravedlivým nebo chybným výstupům.

Co je bias v AI?

Bias (česky předpojatost nebo zkreslení) je systematická chyba v chování AI modelu. Model neodpovídá neutrálně, ale s tendencí určitým směrem - například preferuje určité demografické skupiny, přebírá společenské stereotypy nebo má politicky zabarvené názory. Bias vzniká převážně v trénovacích datech a je dědičný - LLM se učí na textech od lidí, tedy včetně jejich předsudků.

Typy bias

Data bias: Trénovací data nereprezentují realitu proporčně (např. více mužských než ženských postav v IT)
Selection bias: Výběr dat je zkreslený - např. internet obsahuje převážně anglický obsah
Confirmation bias: Model posiluje převládající názory, protože se v datech objevují nejčastěji
Labeling bias: Anotátoři při labelování promítnou do dat své vlastní předsudky

Jak bias omezit

Pečlivá příprava a diverzifikace trénovacích dat
RLHF (Reinforcement Learning from Human Feedback) a bezpečnostní ladění
Guardrails a výstupní filtry pro citlivé oblasti
Pravidelné audity odpovědí - testy na známých benchmarcích biasu
Jasné instrukce v systémovém promptu, kdy se model má zdržet názoru
Úprava modelu přes fine-tuning na vyváženějších datech

Bias úzce souvisí s halucinacemi - obojí jsou důvody, proč u klíčových rozhodnutí ponechat člověka v procesu.

🍪 Pár slov o cookies

Bias v AI (předpojatost)

Co je bias v AI?

Typy bias

Jak bias omezit