Day 15: AI Security & Guardrails

🎯 Cieľ dňa

Pochopiť hlavné attack vectors na AI systémy a implementovať defense-in-depth stratégiu s input/output filteringom.

core theory

Top 10 bezpečnostných rizík pre LLM aplikácie. Štandard priemyslu.

Definitívny explainer prompt injection od jedného z top expertov.

Open-source toolkit pre pridanie safety guardrails do LLM aplikácií.

Praktický guide na obranu: input sanitization, output validation, content filtering.

Prompt Injection — Útočník vkladá inštrukcie do user inputu aby ovládol LLM behavior. #1 LLM attack vector.

Jailbreaking — Obchádzanie model safety guardrails. DAN, grandma exploit, role-play attacks.

Input Filtering — Sanitization user inputov pred odoslaním do LLM. Blocklists, pattern matching, LLM-based classifiers.

Output Filtering — Validácia LLM outputov pred vrátením user. Content policies, PII detection, format validation.

Defense in Depth — Viacero vrstiev ochrany: input → system prompt → model → output → monitoring

Implementuj defense-in-depth pre existujúci chatbot.