Parte 4 — MLOps — Modelos en Producción
14 clases · ~4–5 semanas · ✅ completada (junio 2026)
Fuente principal: Huyen (Designing Machine Learning Systems) — el manual de cabecera para MLOps moderno.
🎯 ¿De qué trata esta parte?
La parte que convierte un notebook que entrena bien en un sistema que funciona en producción 24/7. Cubre versionado (de datos, modelos y experimentos), packaging (Docker), serving (FastAPI, Kubernetes, serverless), monitoreo (data drift, model drift) y los rituales que evitan que el modelo se degrade silenciosamente (reentrenamiento programado, shadow deployment, canary releases).
Incluye una unidad fuerte de interpretabilidad (SHAP, LIME, PDP, ICE) porque ningún modelo va a producción sin alguien preguntando "¿por qué dijo eso?", y otra de testing (datos con Great Expectations, modelos con tests de invariancia) porque en ML el bug habitual no es un crash sino un drift silencioso.
🧩 Problemas que resuelve
- Versionar datasets pesados con DVC y modelos/experimentos con MLflow.
- Empaquetar un modelo entrenado en un contenedor Docker reproducible.
- Servir el modelo como API (FastAPI) y escalar con Kubernetes o serverless.
- Detectar data drift y model drift antes de que el negocio reclame.
- Hacer despliegues seguros (shadow, canary) para evitar romper producción.
- Explicar predicciones individuales y globales con SHAP / LIME / PDP / ICE.
- Validar entradas con Great Expectations antes de que lleguen al modelo.
🎓 Resultados de aprendizaje
Al finalizar esta parte, el estudiante podrá:
- Tomar un modelo entrenado y publicarlo como API monitoreada en producción en menos de un día.
- Diseñar un pipeline CI/CD que reentrene y redesplíegue automáticamente cuando llega data nueva.
- Configurar alertas de drift que avisen antes de que la métrica de negocio caiga.
- Generar un reporte de interpretabilidad para stakeholders no técnicos.
🗺️ Estructura temática
- Versionado — clases 194–196 — DVC para datos, MLflow para modelos/experimentos, Feast como feature store.
- CI/CD y packaging — clases 197–199 — GitHub Actions para ML, Docker, FastAPI.
- Escala y serving — clases 200–201 — Kubernetes, serverless (AWS Lambda / GCP Functions).
- Monitoreo y operación — clases 202–204 — data/model drift, reentrenamiento programado, shadow/canary.
- Interpretabilidad y testing — clases 205–207 — SHAP/LIME/PDP/ICE, testing de datos, testing de modelos.
🛡️ Las 6 capas de protección que dejás armadas
Al terminar P4, todo modelo en producción está cubierto por:
- Data tests (206) — validación de cada batch antes de entrar al pipeline.
- Model tests (207) — INV/DIR/MFT/slice tests como gate de CI.
- Monitoring (202) — PSI/KS/Wasserstein + CBPE sobre tráfico real.
- Shadow (204) — challenger predice sin afectar usuarios.
- Canary (204) — rollout 1% → 5% → 25% → 100% con sticky assignment.
- Rollback automático (204) — vuelta al champion ante degradación de guardrails.
📥 Material descargable — parte completa
Materiales consolidados con TODAS las clases de esta parte (útiles para revisar offline o imprimir el bloque entero):
- 📄 Guía PDF — parte completa — todas las clases concatenadas con headings demoteados.
- 🎞️ Presentación PPTX — parte completa — portada + TOC + slides de cada clase.
📚 Ficha por clase
✨ 14 de 14 clases tienen contenido pedagógico ampliado (📖 Definiciones · ⚠️ Errores comunes · ❓ FAQ).