Parte 1 — Machine Learning Clásico

50 clases · ~11 semanas · ✅ Contenido completo

Fuente principal: Géron (Hands-On Machine Learning, 3ª ed.) — estructura completa de los capítulos 1–9. Para boosting moderno (clase 088): docs oficiales de XGBoost / LightGBM / CatBoost.

Cada clase tiene su README.md con objetivo, resultados de aprendizaje verificables, dataset recomendado, 5 ejercicios y homework con criterio de aceptación. Todas las 50 clases incluyen las tres secciones del patrón pedagógico v2.2.0:

📖 Definiciones y características — términos técnicos con explicación y características clave.
⚠️ Errores comunes — tabla de síntomas/mensajes con causa y solución concretas.
❓ Preguntas frecuentes — FAQs auténticas que aparecen al estudiar cada tema.

📌 Cobertura moderna (audit 2026) — 7 clases dedicadas:

Todos los temas modernos antes vivían como "complementos" dentro de clases originales; con la expansión 2026 cada uno es su clase propia con patrón completo + ejercicios + homework:

Clase 053 → Validación temporal: TimeSeriesSplit, walk-forward, blocking.
Clase 055 → Feature Engineering avanzado: target encoding (CV) + MICE imputation.
Clase 058 → Optuna y HPO bayesiano dedicado (TPE, Hyperband, multi-objective).
Clase 060 → Model Cards y Responsible ML (Mitchell 2018, EU AI Act, NIST AI RMF).
Clase 064 → Class imbalance: SMOTE, ADASYN, class_weight, threshold tuning (PR-AUC, MCC).
Clase 076 → Calibración de probabilidades (Platt, isotonic, temperature scaling, ECE, Brier).
Clase 087 → SHAP en profundidad (TreeExplainer, KernelExplainer, DeepExplainer).

🎯 ¿De qué trata esta parte?

El 70 % del trabajo real de un data scientist ocurre acá: regresión, clasificación, árboles, ensembles, reducción de dimensionalidad y clustering — sobre datos tabulares, con scikit-learn. Es la parte que más empleabilidad da, porque la mayoría de los problemas de negocio se resuelven con un Random Forest o un XGBoost bien evaluado, no con una red neuronal.

El recorrido sigue Hands-On ML de Géron: arranca con un proyecto end-to-end (CRISP-DM) que atraviesa todo el ciclo (exploración → preparación → modelo → evaluación → tuning → deployment), y luego desmenuza cada familia de modelos con la matemática suficiente para elegir bien hiperparámetros, no solo para usar .fit(). Incluye una unidad fuerte de métricas (confusion matrix, ROC, precision/recall tradeoff) porque elegir mal la métrica es la causa #1 de modelos que "funcionan en validación y mueren en producción".

🧩 Problemas que resuelve

Plantear un problema de ML desde cero: entender el negocio, definir métrica, dividir train/test sin leakage.
Construir pipelines completos de preprocesamiento + modelo que se puedan serializar y reusar.
Elegir entre regresión lineal, logística, SVM, árboles o ensembles con criterio (no por moda).
Diagnosticar overfitting/underfitting con curvas de aprendizaje y aplicar la regularización correcta.
Hacer hyperparameter tuning eficiente (Grid Search, Randomized Search) sin sobreajustar al test set.
Reducir dimensionalidad para visualizar (t-SNE, UMAP) o para acelerar entrenamiento (PCA).
Detectar anomalías en datasets sin etiquetas (Isolation Forest, LOF, One-Class SVM).

🎓 Resultados de aprendizaje

Al finalizar esta parte, el estudiante podrá:

Llevar un problema tabular nuevo desde dataset crudo hasta modelo evaluado en menos de un día de trabajo.
Justificar por escrito por qué se eligió un modelo sobre otro (interpretabilidad, datos, métrica, latencia).
Construir un ensemble (bagging, boosting o stacking) y explicar la mejora sobre el baseline.
Aplicar correctamente PCA / t-SNE / UMAP para EDA y para preprocesamiento.
Identificar y corregir las 5 causas más comunes de data leakage.

🗺️ Estructura temática

Fundamentos y proyecto end-to-end — clases 050–061 — panorama del ML, desafíos, validación, proyecto completo, CRISP-DM.
Clasificación y métricas — clases 062–068 — MNIST, confusion matrix, precision/recall, ROC, multiclase, análisis de errores.
Modelos lineales — clases 069–076 — regresión lineal, gradient descent, polinomial, learning curves, regularización, logística.
SVM — clases 077–079 — lineal, kernel, regresión.
Árboles — clases 080–082 — entrenamiento, regularización, regresión.
Ensembles — clases 083–090 — voting, bagging, Random Forest, feature importance, boosting (AdaBoost, GBM, XGBoost, LightGBM, CatBoost), stacking.
Reducción de dimensionalidad — clases 091–094 — maldición de la dimensionalidad, PCA, LLE, MDS/Isomap/t-SNE/UMAP/LDA.
Clustering y detección de anomalías — clases 095–099 — K-Means, DBSCAN, jerárquico, GMM, Isolation Forest, LOF.

📥 Material descargable — parte completa

Materiales consolidados con TODAS las clases de esta parte (útiles para revisar offline o imprimir el bloque entero):

📄 Guía PDF — parte completa — todas las clases concatenadas con headings demoteados.
🎞️ Presentación PPTX — parte completa — portada + TOC + slides de cada clase.

📚 Ficha por clase

✨ 50 de 50 clases tienen contenido pedagógico ampliado (📖 Definiciones · ⚠️ Errores comunes · ❓ FAQ).

050 Panorama del ML: tipos, batch vs online, instance vs model-based📖⚠️❓051 Desafíos del ML: overfitting, underfitting, datos insuficientes📖⚠️❓052 Testing, validación, hyperparameter tuning, no free lunch theorem📖⚠️❓053 Validación temporal: TimeSeriesSplit, walk-forward, blocking📖⚠️❓054 Proyecto end-to-end: visión, datos, exploración, preparación📖⚠️❓055 Feature Engineering avanzado: target encoding + MICE imputation📖⚠️❓056 Selección y entrenamiento de modelo📖⚠️❓057 Fine-tuning: grid search y randomized search📖⚠️❓058 Optuna y HPO bayesiano dedicado📖⚠️❓059 Launch, monitoreo y mantenimiento de modelos📖⚠️❓060 Model Cards y Responsible ML📖⚠️❓061 CRISP-DM como framework metodológico📖⚠️❓062 Clasificación binaria con MNIST📖⚠️❓063 Métricas: confusion matrix, precision, recall, F1📖⚠️❓064 Class imbalance: SMOTE, ADASYN, class_weight, threshold tuning📖⚠️❓065 Precision/Recall tradeoff📖⚠️❓066 Curva ROC y AUC📖⚠️❓067 Clasificación multiclase, multilabel, multioutput📖⚠️❓068 Análisis de errores📖⚠️❓069 Regresión lineal: ecuación normal vs gradient descent📖⚠️❓070 Gradient Descent: batch, stochastic, mini-batch📖⚠️❓071 Regresión polinomial📖⚠️❓072 Curvas de aprendizaje y bias-variance tradeoff📖⚠️❓073 Regularización: Ridge, Lasso, Elastic Net📖⚠️❓074 Early stopping📖⚠️❓075 Regresión logística binaria y softmax📖⚠️❓076 Calibración de probabilidades: Platt, isotonic, temperature scaling📖⚠️❓077 SVM lineal📖⚠️❓078 SVM no lineal: kernel polinomial y RBF📖⚠️❓079 SVM para regresión (SVR)📖⚠️❓080 Árboles de decisión: entrenamiento, visualización, CART📖⚠️❓081 Regularización de árboles📖⚠️❓082 Regresión con árboles📖⚠️❓083 Voting classifiers: hard y soft📖⚠️❓084 Bagging y pasting📖⚠️❓085 Random Forests y Extra Trees📖⚠️❓086 Feature importance📖⚠️❓087 SHAP en profundidad: TreeExplainer, KernelExplainer, DeepExplainer📖⚠️❓088 Boosting: AdaBoost y Gradient Boosting📖⚠️❓089 XGBoost, LightGBM y CatBoost📖⚠️❓090 Stacking (stacked generalization)📖⚠️❓091 La maldición de la dimensionalidad📖⚠️❓092 PCA: proyección, varianza explicada, incremental, randomized, kernel📖⚠️❓093 LLE (Locally Linear Embedding)📖⚠️❓094 MDS, Isomap, t-SNE, UMAP, LDA📖⚠️❓095 Clustering K-Means: selección de K, MiniBatch📖⚠️❓096 DBSCAN📖⚠️❓097 Agglomerative, BIRCH, Mean Shift, Affinity Propagation, Spectral📖⚠️❓098 Gaussian Mixture Models📖⚠️❓099 Detección de anomalías: Isolation Forest, LOF, One-Class SVM📖⚠️❓