Guardrails (ochranné mantinely AI)

Ochranné mechanismy omezující chování AI systému a zabraňující nežádoucím, škodlivým nebo mimoscopovým výstupům.

Co jsou guardrails?

Guardrails (ochranné mantinely) jsou mechanismy, které hlídají vstupy i výstupy AI systému a zabraňují tomu, aby model odpovídal způsobem, který je nebezpečný, mimoscopový nebo jinak nežádoucí. Jsou to pravidla, filtry a kontrolní vrstvy kolem LLM modelu.

Typy guardrails

Vstupní guardrails: Filtrují uživatelský dotaz před odesláním do modelu - blokují nevhodné nebo nebezpečné požadavky.
Výstupní guardrails: Kontrolují odpověď modelu před zobrazením uživateli - zachytávají halucinace, citlivá data nebo off-topic výstupy.
Systémový prompt: Základní úroveň guardrails - instrukce přímo v promptu.

Příklady využití

Chatbot zákaznické podpory nesmí diskutovat o konkurenci → guardrail přesměruje dotaz
Detekce PII (osobních údajů) ve výstupu → guardrail je anonymizuje před odesláním
Blokování prompt injection pokusů → vstupní guardrail odfiltruje podezřelé vzory

Nástroje pro guardrails

Populární frameworky jako NeMo Guardrails (NVIDIA) nebo Guardrails AI umožňují definovat pravidla deklarativně a integrovat je do libovolného LLM pipeline.