Python Data Science Program
📓 Abrir notebook en GitHub

Clase 155 — LLM Evaluation: MMLU, MT-Bench, LLM-as-judge, evals propios

Parte: 2 — Deep Learning · Fuente: Hendrycks et al. (2021) MMLU + Zheng et al. (2023) MT-Bench + LMSys Arena. ⏱️ Duración estimada: 85 min.

🎯 Objetivo

Evaluar LLMs (propios o terceros) con rigor: benchmarks estándar (MMLU, HumanEval, GSM8K, MT-Bench, LMSys Arena), LLM-as-judge para casos open-ended, y evals propios específicos al dominio. Reconocer las trampas (data contamination, reward hacking, leaderboard hacking).

📚 Resultados de aprendizaje

Al finalizar, el estudiante podrá:

🗺️ Temas

📖 Definiciones y características

📂 Dataset / recursos

🧪 Ejercicios

  1. MMLU con lm-eval-harness: lm_eval --model hf --model_args pretrained=mistralai/Mistral-7B-v0.1 --tasks mmlu --num_fewshot 5. Reportar score.
  2. HumanEval: code generation, pass@1.
  3. MT-Bench: usar GPT-4 / Claude como judge. Reportar score promedio.
  4. LLM-as-judge propio: 20 pairs (model_A vs model_B); judge devuelve A/B/tie + reasoning.
  5. Custom eval: 50 prompts específicos a tu use case + criterios de aceptación.

📝 Homework verificable

Evaluar 2 modelos (e.g., Mistral 7B vs Llama 3 8B) en una tarea propia:

  1. 30 prompts específicos al dominio.
  2. Generar respuestas con ambos.
  3. LLM-as-judge (Claude o GPT-4) comparando.
  4. Reportar win rate de cada uno.

Criterio de aceptación: judge entrega resultado consistente (inter-rater agreement > 0.7 entre 2 ejecuciones).

⚠️ Errores comunes

Síntoma / mensaje Causa y cómo arreglar
MMLU score muy alto sospechoso Posible data contamination. Fix: verificar fechas y dataset overlap.
LLM-as-judge sesgado por longitud Tiende a preferir respuestas largas. Fix: instruir explícito "no penalices brevedad".
LLM-judge sesgado por orden A/B Si A siempre se evalúa primero, sesgo. Fix: shuffle.
Eval gameable Optimizar en el test → degrada producción. Fix: hold-out eval + monitoring continuo.
GPU OOM con lm-eval Modelo grande. Fix: --batch_size auto:1 y quantization.

❓ Preguntas frecuentes

❓ MMLU sigue siendo válido en 2026?

Sí pero saturado — top modelos > 88 %. Mejores: MMLU-Pro, GPQA, BBH, MATH.

❓ LMSys Arena reliable?

Sí, gold standard humano. Caro (necesita usuarios). Para producción usar como ground truth.

❓ LLM-as-judge confiable?

GPT-4 / Claude como judge correlatean ~85 % con humanos en MT-Bench. Bias conocidos (length, position). Mitigar con prompts cuidadosos.

❓ Evals para agentes?

SWE-Bench (coding), τ-Bench (tool use), AgentBench. Custom para tu workflow.

❓ Eval continuo en producción?

Sample logs → LLM-as-judge daily → alertar si win-rate baja vs baseline.

🔗 Referencias

📥 Material descargable

➡️ Siguiente clase

Clase 156 — Autoencoders: undercomplete, stacked, denoising, sparse