Week 3 · Day 15/30

AI Security & Guardrails

Prompt injection, jailbreaking, input/output filtering

📅 2026-03-18 ⏱️ 6-7 hodín 📊 Security & Production
Celkový progres 50%

🎯 Cieľ dňa

Pochopiť hlavné attack vectors na AI systémy a implementovať defense-in-depth stratégiu s input/output filteringom.

core theory

📚 Study Resources

🛡️

OWASP — LLM Top 10 Security Risks

Top 10 bezpečnostných rizík pre LLM aplikácie. Štandard priemyslu.

reference
📖

Simon Willison — Prompt Injection Explained

Definitívny explainer prompt injection od jedného z top expertov.

article
🔧

NVIDIA NeMo Guardrails

Open-source toolkit pre pridanie safety guardrails do LLM aplikácií.

tool
🛡️

Lakera — Prompt Injection Defense Guide

Praktický guide na obranu: input sanitization, output validation, content filtering.

article

💡 Key Concepts

Prompt Injection — Útočník vkladá inštrukcie do user inputu aby ovládol LLM behavior. #1 LLM attack vector.
Jailbreaking — Obchádzanie model safety guardrails. DAN, grandma exploit, role-play attacks.
Input Filtering — Sanitization user inputov pred odoslaním do LLM. Blocklists, pattern matching, LLM-based classifiers.
Output Filtering — Validácia LLM outputov pred vrátením user. Content policies, PII detection, format validation.
Defense in Depth — Viacero vrstiev ochrany: input → system prompt → model → output → monitoring

🔧 Praktické cvičenie

Implementuj defense-in-depth pre existujúci chatbot.

  1. Pridaj input filter: detect prompt injection attempts
  2. Pridaj output filter: PII detection, content policy check
  3. Implementuj NeMo Guardrails alebo custom raily
  4. Red-team svoj systém: skús 10 rôznych attack vectors
  5. Zdokumentuj čo prešlo a čo bolo zachytené