Day 18: Observability for AI — AI System Engineer

Celkový progres 60%

🎯 Cieľ dňa

Implementovať end-to-end observability: distributed tracing cez OpenTelemetry, cost tracking, a alerting.

core practice

Oficiálny intro: traces, metrics, logs pre LLM aplikácie. Black box → glass box.

OpenTelemetry extensions pre LLM: auto-instrument OpenAI, Anthropic, vector DBs.

AI Engineer's guide: distributed tracing, metrics, cost tracking.

Build dashboard: latency, token usage, costs, error rates, model performance.

Distributed Tracing — Zaznamenanie celého request flow: user → API → LLM → tools → response. Spans a trace IDs.

OpenTelemetry — Industry standard pre observability. Semantic conventions 1.37+ pre generative AI.

LLM Metrics — Latency (p50/p95/p99), tokens per request, cost per request, error rate, cache hit rate

Cost Tracking — Per-request cost kalkulácia, budget alerts, model-tier breakdown

Pridaj observability do existujúceho AI systému.