Week 4 · Day 25/30

Private Benchmarks & Evals

Vlastné eval suites, measuring quality, continuous evaluation

📅 2026-03-28 ⏱️ 6-7 hodín 📊 Mastery & Portfolio
Celkový progres 83%

🎯 Cieľ dňa

Vybudovať custom evaluation pipeline špecifickú pre tvoje use cases. Verejné benchmarky nestačia.

core practice

📚 Study Resources

📊

DeepEval — Building Custom Metrics

Guide na stavbu vlastných LLM eval metrík integrovaných do CI/CD.

guide

DeepEval — G-Eval Framework

LLM-as-judge s chain-of-thoughts pre evaluáciu podľa AKÉHOKOĽVEK custom kritéria.

docs
💻

Codecademy — Using DeepEval for LLM Evaluation

Praktický Python tutorial: setup, test cases, custom metrics.

tutorial

💡 Key Concepts

Private Benchmarks — Eval suites špecifické pre tvoj use case. Reálne otázky, reálne expected outputs.
G-Eval — LLM-as-judge + CoT pre evaluáciu podľa custom kritérií. Flexibilnejšie ako fixed metrics.
Continuous Evaluation — Eval v CI/CD pipeline. Každý commit triggeruje eval suite. Zachytí regressions.
Golden Dataset — Curated set input-output párov. Ground truth pre systematic testing.

🔧 Praktické cvičenie

Vybuduj private eval suite pre tvoje Ollama agenty.

  1. Vytvor golden dataset: 20+ test casov pre classifier, summarizer, extractor
  2. Implementuj custom metriky s DeepEval G-Eval
  3. Napíš pytest suite s deepeval.assert_test
  4. Meraj: accuracy, latency, token usage per agent
  5. Porovnaj výsledky medzi Ollama modelmi (0.5b vs 1.5b vs 7b)
  6. Integruj do CI pipeline (GitHub Actions)