Guardrails (ochranné mantinely AI)
Ochranné mechanismy omezující chování AI systému a zabraňující nežádoucím, škodlivým nebo mimoscopovým výstupům.
Co jsou guardrails?
Guardrails (ochranné mantinely) jsou mechanismy, které hlídají vstupy i výstupy AI systému a zabraňují tomu, aby model odpovídal způsobem, který je nebezpečný, mimoscopový nebo jinak nežádoucí. Jsou to pravidla, filtry a kontrolní vrstvy kolem LLM modelu.
Typy guardrails
- Vstupní guardrails: Filtrují uživatelský dotaz před odesláním do modelu - blokují nevhodné nebo nebezpečné požadavky.
- Výstupní guardrails: Kontrolují odpověď modelu před zobrazením uživateli - zachytávají halucinace, citlivá data nebo off-topic výstupy.
- Systémový prompt: Základní úroveň guardrails - instrukce přímo v promptu.
Příklady využití
- Chatbot zákaznické podpory nesmí diskutovat o konkurenci → guardrail přesměruje dotaz
- Detekce PII (osobních údajů) ve výstupu → guardrail je anonymizuje před odesláním
- Blokování prompt injection pokusů → vstupní guardrail odfiltruje podezřelé vzory
Nástroje pro guardrails
Populární frameworky jako NeMo Guardrails (NVIDIA) nebo Guardrails AI umožňují definovat pravidla deklarativně a integrovat je do libovolného LLM pipeline.