Parte 2 — Deep Learning — Keras, TensorFlow, Transformers, RL y Despliegue
75 clases · ~17–19 semanas · ✅ Contenido completo (expansión 2026: PyTorch dedicado, Lion/Sophia, Stochastic Depth, SAM/YOLOv11, CLIP/Whisper, LoRA/DPO/vLLM, MCP, agentes, eval, SDXL, ONNX, JAX, Flash Attention)
Fuente principal: Géron (Hands-On ML, 3ª ed.) — capítulos 10–19. Complementado con Howard & Gugger (Deep Learning for Coders with fastai & PyTorch), Prince (Understanding Deep Learning, 2024), papers seminales de Transformers/LLMs y documentación oficial de PyTorch, Hugging Face, JAX y ONNX.
Cada clase tiene su README.md con objetivo, resultados de aprendizaje verificables, dataset recomendado, 5 ejercicios y homework con criterio de aceptación. Todas las 75 clases incluyen las tres secciones del patrón pedagógico v2.2.0:
- 📖 Definiciones y características — términos técnicos con explicación y características clave.
- ⚠️ Errores comunes — tabla de síntomas/mensajes con causa y solución concretas (CUDA OOM, NaN loss, gradient explosion, etc.).
- ❓ Preguntas frecuentes — FAQs auténticas que aparecen al estudiar cada tema.
📌 Cobertura moderna (audit 2026) — 19 clases dedicadas:
Todos los temas modernos ahora son clases independientes con patrón completo + ejercicios + homework:
- Clase 106 → Ray Tune: HPO distribuido y a escala (ASHA, PBT).
- Clase 114 → Optimizadores modernos: Lion, Sophia, Schedule-Free.
- Clase 117 → Regularización moderna: Stochastic Depth, DropPath, LayerDrop.
- Clase 122 / 123 → PyTorch fundamentos + PyTorch Lightning.
- Clase 133 → Segment Anything (SAM / SAM 2).
- Clase 134 → YOLOv11 práctico (detección, segmentación, pose, tracking).
- Clase 144 → Flash Attention v2/v3, RoPE, GQA (motor de LLMs modernos).
- Clase 146 → CLIP / SigLIP: multimodal embeddings.
- Clase 147 → Whisper: ASR, transcripción, traducción de audio.
- Clase 149 → LoRA / QLoRA: fine-tuning eficiente de LLMs.
- Clase 150 → DPO y RLHF: alineamiento de LLMs.
- Clase 151 → vLLM y TGI: serving de LLMs en producción.
- Clase 153 → MCP (Model Context Protocol).
- Clase 154 → Agentes: tool use, ReAct, multi-agent.
- Clase 155 → LLM Evaluation: MMLU, MT-Bench, LLM-as-judge.
- Clase 160 → Stable Diffusion XL + ControlNet en profundidad.
- Clase 167 → ONNX y ONNX Runtime: portabilidad e inference optimizada.
- Clase 173 → JAX y Flax: stack moderno de Google.
🎯 ¿De qué trata esta parte?
La parte más extensa del programa. Cubre Deep Learning desde el perceptrón hasta los modelos generativos modernos (Transformers, LLMs, difusión) y reinforcement learning. El énfasis está en entender qué hace cada bloque (no solo en copiar model.fit): por qué BatchNorm acelera la convergencia, qué hace Adam que no hace SGD, cuándo conviene una CNN vs una ViT, por qué un Transformer dejó obsoletas a las RNN para secuencias largas.
Está organizada en bloques: fundamentos (MLPs, optimización, regularización), ingeniería con TensorFlow/Keras (custom layers, tf.data, TFRecord), visión por computadora (CNNs y arquitecturas modernas), secuencias (RNN, LSTM, atención, Transformers, LLMs, RAG), generativos (autoencoders, VAE, GAN, difusión), reinforcement learning y despliegue a producción (TF Serving, Vertex AI, TF Lite, TensorFlow.js, multi-GPU).
🧩 Problemas que resuelve
- Entrenar una red neuronal desde cero (MLP) y explicar la matemática del backpropagation.
- Diagnosticar y resolver vanishing/exploding gradients con inicialización, BatchNorm y activaciones modernas.
- Hacer transfer learning con CNNs preentrenadas para visión o con LLMs para texto.
- Construir un pipeline de datos eficiente con tf.data + TFRecord para entrenar sobre datasets que no caben en RAM.
- Implementar arquitecturas modernas: ResNet, EfficientNet, ViT, BERT, GPT, modelos de difusión.
- Usar Hugging Face Transformers para tareas reales (clasificación, NER, generación, embeddings).
- Construir un sistema RAG básico sobre documentos propios.
- Desplegar un modelo entrenado a producción (TF Serving + gRPC, Vertex AI, TF Lite móvil, navegador con TF.js).
🎓 Resultados de aprendizaje
Al finalizar esta parte, el estudiante podrá:
- Entrenar y serializar un modelo de visión que supere baseline en un dataset propio.
- Hacer fine-tuning de un Transformer pequeño para clasificación o generación.
- Construir un mini-RAG con embeddings + retriever + LLM sobre un corpus de ~1000 documentos.
- Servir un modelo entrenado vía API en una GPU y medir su latencia.
- Explicar el tradeoff entrenamiento/serving para CNN vs ViT vs LLM para un caso concreto.
🗺️ Estructura temática
- Fundamentos de redes neuronales — clases 100–106 — perceptrón, MLP, backprop, Keras (Sequential, Functional, Subclassing), Keras Tuner.
- Entrenamiento de redes profundas — clases 107–117 — gradientes, inicialización, activaciones, normalización, optimizadores, schedules, regularización.
- TensorFlow avanzado — clases 118–127 — tensores, custom layers/loops, autograph, tf.data, TFRecord, preprocessing layers, TFDS.
- Visión por computadora — clases 128–134 — convoluciones, pooling, arquitecturas CNN modernas, transfer learning, detección/segmentación.
- Secuencias y NLP — clases 135–155 — RNN, LSTM, GRU, 1D CNN, char-RNN, sentimiento, encoder-decoder, atención, Transformers, BERT/GPT, Hugging Face, LLMs, RAG.
- Modelos generativos — clases 156–160 — autoencoders, VAE, GAN, difusión.
- Reinforcement Learning — clases 161–165 — Gymnasium, policy gradients, MDPs, Q-learning, DQN, PPO/SAC.
- Despliegue y escala — clases 166–174 — TF Serving, Vertex AI, TF Lite, TensorFlow.js, GPU, tf.distribute, entrenamiento a escala.
📥 Material descargable — parte completa
Materiales consolidados con TODAS las clases de esta parte (útiles para revisar offline o imprimir el bloque entero):
- 📄 Guía PDF — parte completa — todas las clases concatenadas con headings demoteados.
- 🎞️ Presentación PPTX — parte completa — portada + TOC + slides de cada clase.
📚 Ficha por clase
✨ 75 de 75 clases tienen contenido pedagógico ampliado (📖 Definiciones · ⚠️ Errores comunes · ❓ FAQ).