Week 1 · Day 3/30

Model Selection & Benchmarks

Ako evaluovať modely, MMLU, HumanEval, cost/quality tradeoffs

📅 2026-03-06 ⏱️ 4-5 hodín 📊 Foundations & RAG
Model Selection — AI benchmark dashboard
Celkový progres 10%

🎯 Cieľ dňa

Vedieť vybrať správny model pre task. Pochopiť benchmarky, ich limity, a praktické cost/quality analýzy.

theory practice

📚 Study Resources

📊

Confident AI — Top LLM Benchmarks Explained

Jasné vysvetlenia čo každý benchmark meria a ich limitácie.

article
📚

Evidently AI — 30 LLM Evaluation Benchmarks

Kompletný katalóg benchmarkov s metodológiou. MMLU, HumanEval, SWE-bench, GPQA.

reference
📈

LLM Stats — Live Benchmarks 2026

Live, updatované benchmark porovnanie. Reálne čísla frontier modelov.

tool
🏆

Klu — 2026 LLM Leaderboard

Side-by-side model comparison — Anthropic, Google, OpenAI s performance breakdowns.

tool
💰

Price Per Token — LLM API Pricing 2026

Live pricing pre 300+ modelov. Essential pre cost/quality tradeoff analýzy.

tool

💡 Key Concepts

MMLU — 16K+ otázok, 57 subjektov; frontier modely saturujú nad 88-93%, stále užitočné pre mid-tier
HumanEval — 164 Python programming taskov; top modely dosahujú 99.0
SWE-bench — Reálne GitHub issue resolution — meria praktickú coding schopnosť
Benchmark Saturation — Keď benchmarky prestanú rozlišovať top modely (MMLU gap sa zúžil na 0.3%)
Cost/Quality Tradeoffs — Opus 4.6 za $5/$25 vs GPT-5 mini za $0.25/$2 — kedy ktorý tier

🔧 Praktické cvičenie

Vytvor model evaluation matrix pre reálny task.

  1. Vyber task (code gen, summarization, data extraction)
  2. Testuj na 3-4 modeloch rôznych cenových tierov
  3. Skóruj quality (1-10), latency, cost per call, format compliance
  4. Buildni spreadsheet s výsledkami
  5. Použi LLM Pricing Calculator na projekciu mesačných nákladov