Parte 5 — Ingeniería de Datos

8 clases · ~3 semanas · ✅ completada (junio 2026)

Fuente principal: Reis & Housley Fundamentals of Data Engineering (O'Reilly, 2022) + Kimball & Ross The Data Warehouse Toolkit (Wiley, 3ª ed.) + docs oficiales del stack moderno.

🎯 ¿De qué trata esta parte?

La parte que enseña a mover y transformar datos a escala, más allá de lo que pandas aguanta. Cubre orquestación (Airflow, Prefect, Dagster), procesamiento distribuido (PySpark, Polars), almacenamiento analítico (BigQuery, Snowflake, DuckDB), streaming (Kafka, Kinesis), formatos columnares (Parquet, Avro) y modelado dimensional (star/snowflake schemas).

Es la parte donde el data scientist deja de pedirle datos al equipo de data engineering y empieza a moverlos él mismo cuando es necesario. No reemplaza a un data engineer senior, pero sí cubre el 80 % de los casos donde el bottleneck era "esto no cabe en memoria" o "este pipeline corre 8 horas y falla a la mitad".

🧩 Problemas que resuelve

Orquestar un pipeline de N pasos con dependencias, retries y observabilidad.
Procesar datasets de TBs con PySpark o de GBs con Polars sin cargarlos en RAM.
Consultar un data warehouse moderno (BigQuery, Snowflake, DuckDB local) desde Python.
Consumir un stream de eventos en tiempo real (Kafka / Kinesis).
Elegir el formato de almacenamiento correcto (Parquet vs Avro vs CSV) según el patrón de lectura.
Diseñar un modelo dimensional (star schema) para BI y para features de ML.

🎓 Resultados de aprendizaje

Al finalizar esta parte, el estudiante podrá:

Convertir un script pandas que tomaba horas en un pipeline Airflow/Prefect con Polars o PySpark.
Migrar un workflow desde CSV a Parquet y medir la mejora en tiempo y espacio.
Diseñar un star schema para un caso de negocio dado.

🗺️ Estructura temática

Orquestación — clases 208–209 — Airflow (TaskFlow API), Prefect 3 + Dagster (assets).
Procesamiento distribuido y moderno — clases 210–211 — PySpark (broadcast, AQE, skew), Polars (lazy, streaming).
Data warehouses y streaming — clases 212–213 — BigQuery / Snowflake / DuckDB, Kafka + Kinesis (consumer groups, exactly-once).
Formatos y modelado — clases 214–215 — Parquet/Avro (predicate pushdown, schema evolution), star/snowflake schemas (SCD 2, dim_date).

📥 Material descargable — parte completa

Materiales consolidados con TODAS las clases de esta parte (útiles para revisar offline o imprimir el bloque entero):

📄 Guía PDF — parte completa — todas las clases concatenadas con headings demoteados.
🎞️ Presentación PPTX — parte completa — portada + TOC + slides de cada clase.

📚 Ficha por clase

✨ 8 de 8 clases tienen contenido pedagógico ampliado (📖 Definiciones · ⚠️ Errores comunes · ❓ FAQ).

208 Pipelines ETL/ELT con Airflow📖⚠️❓209 Pipelines con Prefect o Dagster📖⚠️❓210 PySpark para datasets grandes📖⚠️❓211 Polars como alternativa moderna📖⚠️❓212 Data warehouses: BigQuery, Snowflake, DuckDB📖⚠️❓213 Streaming intro: Kafka, Kinesis📖⚠️❓214 Formatos columnares: Parquet, Avro📖⚠️❓215 Modelado dimensional: star/snowflake schemas📖⚠️❓