Parte 1 — Machine Learning Clásico
50 clases · ~11 semanas · ✅ Contenido completo
Fuente principal: Géron (Hands-On Machine Learning, 3ª ed.) — estructura completa de los capítulos 1–9. Para boosting moderno (clase 088): docs oficiales de XGBoost / LightGBM / CatBoost.
Cada clase tiene su README.md con objetivo, resultados de aprendizaje verificables, dataset recomendado, 5 ejercicios y homework con criterio de aceptación. Todas las 50 clases incluyen las tres secciones del patrón pedagógico v2.2.0:
- 📖 Definiciones y características — términos técnicos con explicación y características clave.
- ⚠️ Errores comunes — tabla de síntomas/mensajes con causa y solución concretas.
- ❓ Preguntas frecuentes — FAQs auténticas que aparecen al estudiar cada tema.
📌 Cobertura moderna (audit 2026) — 7 clases dedicadas:
Todos los temas modernos antes vivían como "complementos" dentro de clases originales; con la expansión 2026 cada uno es su clase propia con patrón completo + ejercicios + homework:
- Clase 053 → Validación temporal: TimeSeriesSplit, walk-forward, blocking.
- Clase 055 → Feature Engineering avanzado: target encoding (CV) + MICE imputation.
- Clase 058 → Optuna y HPO bayesiano dedicado (TPE, Hyperband, multi-objective).
- Clase 060 → Model Cards y Responsible ML (Mitchell 2018, EU AI Act, NIST AI RMF).
- Clase 064 → Class imbalance: SMOTE, ADASYN, class_weight, threshold tuning (PR-AUC, MCC).
- Clase 076 → Calibración de probabilidades (Platt, isotonic, temperature scaling, ECE, Brier).
- Clase 087 → SHAP en profundidad (TreeExplainer, KernelExplainer, DeepExplainer).
🎯 ¿De qué trata esta parte?
El 70 % del trabajo real de un data scientist ocurre acá: regresión, clasificación, árboles, ensembles, reducción de dimensionalidad y clustering — sobre datos tabulares, con scikit-learn. Es la parte que más empleabilidad da, porque la mayoría de los problemas de negocio se resuelven con un Random Forest o un XGBoost bien evaluado, no con una red neuronal.
El recorrido sigue Hands-On ML de Géron: arranca con un proyecto end-to-end (CRISP-DM) que atraviesa todo el ciclo (exploración → preparación → modelo → evaluación → tuning → deployment), y luego desmenuza cada familia de modelos con la matemática suficiente para elegir bien hiperparámetros, no solo para usar .fit(). Incluye una unidad fuerte de métricas (confusion matrix, ROC, precision/recall tradeoff) porque elegir mal la métrica es la causa #1 de modelos que "funcionan en validación y mueren en producción".
🧩 Problemas que resuelve
- Plantear un problema de ML desde cero: entender el negocio, definir métrica, dividir train/test sin leakage.
- Construir pipelines completos de preprocesamiento + modelo que se puedan serializar y reusar.
- Elegir entre regresión lineal, logística, SVM, árboles o ensembles con criterio (no por moda).
- Diagnosticar overfitting/underfitting con curvas de aprendizaje y aplicar la regularización correcta.
- Hacer hyperparameter tuning eficiente (Grid Search, Randomized Search) sin sobreajustar al test set.
- Reducir dimensionalidad para visualizar (t-SNE, UMAP) o para acelerar entrenamiento (PCA).
- Detectar anomalías en datasets sin etiquetas (Isolation Forest, LOF, One-Class SVM).
🎓 Resultados de aprendizaje
Al finalizar esta parte, el estudiante podrá:
- Llevar un problema tabular nuevo desde dataset crudo hasta modelo evaluado en menos de un día de trabajo.
- Justificar por escrito por qué se eligió un modelo sobre otro (interpretabilidad, datos, métrica, latencia).
- Construir un ensemble (bagging, boosting o stacking) y explicar la mejora sobre el baseline.
- Aplicar correctamente PCA / t-SNE / UMAP para EDA y para preprocesamiento.
- Identificar y corregir las 5 causas más comunes de data leakage.
🗺️ Estructura temática
- Fundamentos y proyecto end-to-end — clases 050–061 — panorama del ML, desafíos, validación, proyecto completo, CRISP-DM.
- Clasificación y métricas — clases 062–068 — MNIST, confusion matrix, precision/recall, ROC, multiclase, análisis de errores.
- Modelos lineales — clases 069–076 — regresión lineal, gradient descent, polinomial, learning curves, regularización, logística.
- SVM — clases 077–079 — lineal, kernel, regresión.
- Árboles — clases 080–082 — entrenamiento, regularización, regresión.
- Ensembles — clases 083–090 — voting, bagging, Random Forest, feature importance, boosting (AdaBoost, GBM, XGBoost, LightGBM, CatBoost), stacking.
- Reducción de dimensionalidad — clases 091–094 — maldición de la dimensionalidad, PCA, LLE, MDS/Isomap/t-SNE/UMAP/LDA.
- Clustering y detección de anomalías — clases 095–099 — K-Means, DBSCAN, jerárquico, GMM, Isolation Forest, LOF.
📥 Material descargable — parte completa
Materiales consolidados con TODAS las clases de esta parte (útiles para revisar offline o imprimir el bloque entero):
- 📄 Guía PDF — parte completa — todas las clases concatenadas con headings demoteados.
- 🎞️ Presentación PPTX — parte completa — portada + TOC + slides de cada clase.
📚 Ficha por clase
✨ 50 de 50 clases tienen contenido pedagógico ampliado (📖 Definiciones · ⚠️ Errores comunes · ❓ FAQ).