Day 4: API Design for AI — AI System Engineer

🎯 Cieľ dňa

Navrhnúť resilientnú AI API vrstvu s retry logikou, circuit breakermi a model fallbackmi.

practice core

Officiálna dokumentácia SSE-based streaming. Štartovací bod.

Praktický guide na budovanie resilientného LLM API layeru.

Token math, budgeting, throughput management. Reálne kalkulácie.

Hands-on tutorial: streaming API endpoint s FastAPI a SSE. Working code.

TPM, RPM, Retry-After headers. Oficiálna rate limiting dokumentácia.

REST vs Streaming — Kedy sync responses vs SSE; time-to-first-token optimalizácia

Token Management — Počítanie tokenov pred odoslaním (tiktoken), max_tokens, context windows, kalkulácia nákladov

Rate Limiting — Token bucket, leaky bucket, sliding window; client-side rate limiter implementácia

Error Handling — 4xx (neretryuj) vs 5xx/429 (retryuj s backoffom); exponential backoff s jitter

Circuit Breakers — Monitoring failure patterns, cut traffic pred kaskádovými zlyhaniami

Model Fallbacks — Fallback z drahého modelu na lacnejší pri výpadku alebo rate limitingu

Buildni resilientný LLM API wrapper.