Day 3: Model Selection & Benchmarks

🎯 Cieľ dňa

Vedieť vybrať správny model pre task. Pochopiť benchmarky, ich limity, a praktické cost/quality analýzy.

theory practice

Jasné vysvetlenia čo každý benchmark meria a ich limitácie.

Kompletný katalóg benchmarkov s metodológiou. MMLU, HumanEval, SWE-bench, GPQA.

Live, updatované benchmark porovnanie. Reálne čísla frontier modelov.

Side-by-side model comparison — Anthropic, Google, OpenAI s performance breakdowns.

Live pricing pre 300+ modelov. Essential pre cost/quality tradeoff analýzy.

MMLU — 16K+ otázok, 57 subjektov; frontier modely saturujú nad 88-93%, stále užitočné pre mid-tier

HumanEval — 164 Python programming taskov; top modely dosahujú 99.0

SWE-bench — Reálne GitHub issue resolution — meria praktickú coding schopnosť

Benchmark Saturation — Keď benchmarky prestanú rozlišovať top modely (MMLU gap sa zúžil na 0.3%)

Cost/Quality Tradeoffs — Opus 4.6 za $5/$25 vs GPT-5 mini za $0.25/$2 — kedy ktorý tier

Vytvor model evaluation matrix pre reálny task.