Parte 5 — Ingeniería de Datos
8 clases · ~3 semanas · ✅ completada (junio 2026)
Fuente principal: Reis & Housley Fundamentals of Data Engineering (O'Reilly, 2022) + Kimball & Ross The Data Warehouse Toolkit (Wiley, 3ª ed.) + docs oficiales del stack moderno.
🎯 ¿De qué trata esta parte?
La parte que enseña a mover y transformar datos a escala, más allá de lo que pandas aguanta. Cubre orquestación (Airflow, Prefect, Dagster), procesamiento distribuido (PySpark, Polars), almacenamiento analítico (BigQuery, Snowflake, DuckDB), streaming (Kafka, Kinesis), formatos columnares (Parquet, Avro) y modelado dimensional (star/snowflake schemas).
Es la parte donde el data scientist deja de pedirle datos al equipo de data engineering y empieza a moverlos él mismo cuando es necesario. No reemplaza a un data engineer senior, pero sí cubre el 80 % de los casos donde el bottleneck era "esto no cabe en memoria" o "este pipeline corre 8 horas y falla a la mitad".
🧩 Problemas que resuelve
- Orquestar un pipeline de N pasos con dependencias, retries y observabilidad.
- Procesar datasets de TBs con PySpark o de GBs con Polars sin cargarlos en RAM.
- Consultar un data warehouse moderno (BigQuery, Snowflake, DuckDB local) desde Python.
- Consumir un stream de eventos en tiempo real (Kafka / Kinesis).
- Elegir el formato de almacenamiento correcto (Parquet vs Avro vs CSV) según el patrón de lectura.
- Diseñar un modelo dimensional (star schema) para BI y para features de ML.
🎓 Resultados de aprendizaje
Al finalizar esta parte, el estudiante podrá:
- Convertir un script
pandasque tomaba horas en un pipeline Airflow/Prefect con Polars o PySpark. - Migrar un workflow desde CSV a Parquet y medir la mejora en tiempo y espacio.
- Diseñar un star schema para un caso de negocio dado.
🗺️ Estructura temática
- Orquestación — clases 208–209 — Airflow (TaskFlow API), Prefect 3 + Dagster (assets).
- Procesamiento distribuido y moderno — clases 210–211 — PySpark (broadcast, AQE, skew), Polars (lazy, streaming).
- Data warehouses y streaming — clases 212–213 — BigQuery / Snowflake / DuckDB, Kafka + Kinesis (consumer groups, exactly-once).
- Formatos y modelado — clases 214–215 — Parquet/Avro (predicate pushdown, schema evolution), star/snowflake schemas (SCD 2,
dim_date).
📥 Material descargable — parte completa
Materiales consolidados con TODAS las clases de esta parte (útiles para revisar offline o imprimir el bloque entero):
- 📄 Guía PDF — parte completa — todas las clases concatenadas con headings demoteados.
- 🎞️ Presentación PPTX — parte completa — portada + TOC + slides de cada clase.
📚 Ficha por clase
✨ 8 de 8 clases tienen contenido pedagógico ampliado (📖 Definiciones · ⚠️ Errores comunes · ❓ FAQ).