Python Data Science Program

Parte 5 — Ingeniería de Datos

8 clases · ~3 semanas · ✅ completada (junio 2026)

Fuente principal: Reis & Housley Fundamentals of Data Engineering (O'Reilly, 2022) + Kimball & Ross The Data Warehouse Toolkit (Wiley, 3ª ed.) + docs oficiales del stack moderno.


🎯 ¿De qué trata esta parte?

La parte que enseña a mover y transformar datos a escala, más allá de lo que pandas aguanta. Cubre orquestación (Airflow, Prefect, Dagster), procesamiento distribuido (PySpark, Polars), almacenamiento analítico (BigQuery, Snowflake, DuckDB), streaming (Kafka, Kinesis), formatos columnares (Parquet, Avro) y modelado dimensional (star/snowflake schemas).

Es la parte donde el data scientist deja de pedirle datos al equipo de data engineering y empieza a moverlos él mismo cuando es necesario. No reemplaza a un data engineer senior, pero sí cubre el 80 % de los casos donde el bottleneck era "esto no cabe en memoria" o "este pipeline corre 8 horas y falla a la mitad".

🧩 Problemas que resuelve

🎓 Resultados de aprendizaje

Al finalizar esta parte, el estudiante podrá:

🗺️ Estructura temática

📥 Material descargable — parte completa

Materiales consolidados con TODAS las clases de esta parte (útiles para revisar offline o imprimir el bloque entero):



📚 Ficha por clase

8 de 8 clases tienen contenido pedagógico ampliado (📖 Definiciones · ⚠️ Errores comunes · FAQ).

208 Pipelines ETL/ELT con Airflow📖⚠️209 Pipelines con Prefect o Dagster📖⚠️210 PySpark para datasets grandes📖⚠️211 Polars como alternativa moderna📖⚠️212 Data warehouses: BigQuery, Snowflake, DuckDB📖⚠️213 Streaming intro: Kafka, Kinesis📖⚠️214 Formatos columnares: Parquet, Avro📖⚠️215 Modelado dimensional: star/snowflake schemas📖⚠️