Python Data Science Program

Parte 1 — Machine Learning Clásico

50 clases · ~11 semanas · ✅ Contenido completo

Fuente principal: Géron (Hands-On Machine Learning, 3ª ed.) — estructura completa de los capítulos 1–9. Para boosting moderno (clase 088): docs oficiales de XGBoost / LightGBM / CatBoost.

Cada clase tiene su README.md con objetivo, resultados de aprendizaje verificables, dataset recomendado, 5 ejercicios y homework con criterio de aceptación. Todas las 50 clases incluyen las tres secciones del patrón pedagógico v2.2.0:

📌 Cobertura moderna (audit 2026) — 7 clases dedicadas:

Todos los temas modernos antes vivían como "complementos" dentro de clases originales; con la expansión 2026 cada uno es su clase propia con patrón completo + ejercicios + homework:


🎯 ¿De qué trata esta parte?

El 70 % del trabajo real de un data scientist ocurre acá: regresión, clasificación, árboles, ensembles, reducción de dimensionalidad y clustering — sobre datos tabulares, con scikit-learn. Es la parte que más empleabilidad da, porque la mayoría de los problemas de negocio se resuelven con un Random Forest o un XGBoost bien evaluado, no con una red neuronal.

El recorrido sigue Hands-On ML de Géron: arranca con un proyecto end-to-end (CRISP-DM) que atraviesa todo el ciclo (exploración → preparación → modelo → evaluación → tuning → deployment), y luego desmenuza cada familia de modelos con la matemática suficiente para elegir bien hiperparámetros, no solo para usar .fit(). Incluye una unidad fuerte de métricas (confusion matrix, ROC, precision/recall tradeoff) porque elegir mal la métrica es la causa #1 de modelos que "funcionan en validación y mueren en producción".

🧩 Problemas que resuelve

🎓 Resultados de aprendizaje

Al finalizar esta parte, el estudiante podrá:

🗺️ Estructura temática

📥 Material descargable — parte completa

Materiales consolidados con TODAS las clases de esta parte (útiles para revisar offline o imprimir el bloque entero):



📚 Ficha por clase

50 de 50 clases tienen contenido pedagógico ampliado (📖 Definiciones · ⚠️ Errores comunes · FAQ).

050 Panorama del ML: tipos, batch vs online, instance vs model-based📖⚠️051 Desafíos del ML: overfitting, underfitting, datos insuficientes📖⚠️052 Testing, validación, hyperparameter tuning, no free lunch theorem📖⚠️053 Validación temporal: TimeSeriesSplit, walk-forward, blocking📖⚠️054 Proyecto end-to-end: visión, datos, exploración, preparación📖⚠️055 Feature Engineering avanzado: target encoding + MICE imputation📖⚠️056 Selección y entrenamiento de modelo📖⚠️057 Fine-tuning: grid search y randomized search📖⚠️058 Optuna y HPO bayesiano dedicado📖⚠️059 Launch, monitoreo y mantenimiento de modelos📖⚠️060 Model Cards y Responsible ML📖⚠️061 CRISP-DM como framework metodológico📖⚠️062 Clasificación binaria con MNIST📖⚠️063 Métricas: confusion matrix, precision, recall, F1📖⚠️064 Class imbalance: SMOTE, ADASYN, class_weight, threshold tuning📖⚠️065 Precision/Recall tradeoff📖⚠️066 Curva ROC y AUC📖⚠️067 Clasificación multiclase, multilabel, multioutput📖⚠️068 Análisis de errores📖⚠️069 Regresión lineal: ecuación normal vs gradient descent📖⚠️070 Gradient Descent: batch, stochastic, mini-batch📖⚠️071 Regresión polinomial📖⚠️072 Curvas de aprendizaje y bias-variance tradeoff📖⚠️073 Regularización: Ridge, Lasso, Elastic Net📖⚠️074 Early stopping📖⚠️075 Regresión logística binaria y softmax📖⚠️076 Calibración de probabilidades: Platt, isotonic, temperature scaling📖⚠️077 SVM lineal📖⚠️078 SVM no lineal: kernel polinomial y RBF📖⚠️079 SVM para regresión (SVR)📖⚠️080 Árboles de decisión: entrenamiento, visualización, CART📖⚠️081 Regularización de árboles📖⚠️082 Regresión con árboles📖⚠️083 Voting classifiers: hard y soft📖⚠️084 Bagging y pasting📖⚠️085 Random Forests y Extra Trees📖⚠️086 Feature importance📖⚠️087 SHAP en profundidad: TreeExplainer, KernelExplainer, DeepExplainer📖⚠️088 Boosting: AdaBoost y Gradient Boosting📖⚠️089 XGBoost, LightGBM y CatBoost📖⚠️090 Stacking (stacked generalization)📖⚠️091 La maldición de la dimensionalidad📖⚠️092 PCA: proyección, varianza explicada, incremental, randomized, kernel📖⚠️093 LLE (Locally Linear Embedding)📖⚠️094 MDS, Isomap, t-SNE, UMAP, LDA📖⚠️095 Clustering K-Means: selección de K, MiniBatch📖⚠️096 DBSCAN📖⚠️097 Agglomerative, BIRCH, Mean Shift, Affinity Propagation, Spectral📖⚠️098 Gaussian Mixture Models📖⚠️099 Detección de anomalías: Isolation Forest, LOF, One-Class SVM📖⚠️