Parte 2 — Deep Learning — Keras, TensorFlow, Transformers, RL y Despliegue

75 clases · ~17–19 semanas · ✅ Contenido completo (expansión 2026: PyTorch dedicado, Lion/Sophia, Stochastic Depth, SAM/YOLOv11, CLIP/Whisper, LoRA/DPO/vLLM, MCP, agentes, eval, SDXL, ONNX, JAX, Flash Attention)

Fuente principal: Géron (Hands-On ML, 3ª ed.) — capítulos 10–19. Complementado con Howard & Gugger (Deep Learning for Coders with fastai & PyTorch), Prince (Understanding Deep Learning, 2024), papers seminales de Transformers/LLMs y documentación oficial de PyTorch, Hugging Face, JAX y ONNX.

Cada clase tiene su README.md con objetivo, resultados de aprendizaje verificables, dataset recomendado, 5 ejercicios y homework con criterio de aceptación. Todas las 75 clases incluyen las tres secciones del patrón pedagógico v2.2.0:

📖 Definiciones y características — términos técnicos con explicación y características clave.
⚠️ Errores comunes — tabla de síntomas/mensajes con causa y solución concretas (CUDA OOM, NaN loss, gradient explosion, etc.).
❓ Preguntas frecuentes — FAQs auténticas que aparecen al estudiar cada tema.

📌 Cobertura moderna (audit 2026) — 19 clases dedicadas:

Todos los temas modernos ahora son clases independientes con patrón completo + ejercicios + homework:

Clase 106 → Ray Tune: HPO distribuido y a escala (ASHA, PBT).
Clase 114 → Optimizadores modernos: Lion, Sophia, Schedule-Free.
Clase 117 → Regularización moderna: Stochastic Depth, DropPath, LayerDrop.
Clase 122 / 123 → PyTorch fundamentos + PyTorch Lightning.
Clase 133 → Segment Anything (SAM / SAM 2).
Clase 134 → YOLOv11 práctico (detección, segmentación, pose, tracking).
Clase 144 → Flash Attention v2/v3, RoPE, GQA (motor de LLMs modernos).
Clase 146 → CLIP / SigLIP: multimodal embeddings.
Clase 147 → Whisper: ASR, transcripción, traducción de audio.
Clase 149 → LoRA / QLoRA: fine-tuning eficiente de LLMs.
Clase 150 → DPO y RLHF: alineamiento de LLMs.
Clase 151 → vLLM y TGI: serving de LLMs en producción.
Clase 153 → MCP (Model Context Protocol).
Clase 154 → Agentes: tool use, ReAct, multi-agent.
Clase 155 → LLM Evaluation: MMLU, MT-Bench, LLM-as-judge.
Clase 160 → Stable Diffusion XL + ControlNet en profundidad.
Clase 167 → ONNX y ONNX Runtime: portabilidad e inference optimizada.
Clase 173 → JAX y Flax: stack moderno de Google.

🎯 ¿De qué trata esta parte?

La parte más extensa del programa. Cubre Deep Learning desde el perceptrón hasta los modelos generativos modernos (Transformers, LLMs, difusión) y reinforcement learning. El énfasis está en entender qué hace cada bloque (no solo en copiar model.fit): por qué BatchNorm acelera la convergencia, qué hace Adam que no hace SGD, cuándo conviene una CNN vs una ViT, por qué un Transformer dejó obsoletas a las RNN para secuencias largas.

Está organizada en bloques: fundamentos (MLPs, optimización, regularización), ingeniería con TensorFlow/Keras (custom layers, tf.data, TFRecord), visión por computadora (CNNs y arquitecturas modernas), secuencias (RNN, LSTM, atención, Transformers, LLMs, RAG), generativos (autoencoders, VAE, GAN, difusión), reinforcement learning y despliegue a producción (TF Serving, Vertex AI, TF Lite, TensorFlow.js, multi-GPU).

🧩 Problemas que resuelve

Entrenar una red neuronal desde cero (MLP) y explicar la matemática del backpropagation.
Diagnosticar y resolver vanishing/exploding gradients con inicialización, BatchNorm y activaciones modernas.
Hacer transfer learning con CNNs preentrenadas para visión o con LLMs para texto.
Construir un pipeline de datos eficiente con tf.data + TFRecord para entrenar sobre datasets que no caben en RAM.
Implementar arquitecturas modernas: ResNet, EfficientNet, ViT, BERT, GPT, modelos de difusión.
Usar Hugging Face Transformers para tareas reales (clasificación, NER, generación, embeddings).
Construir un sistema RAG básico sobre documentos propios.
Desplegar un modelo entrenado a producción (TF Serving + gRPC, Vertex AI, TF Lite móvil, navegador con TF.js).

🎓 Resultados de aprendizaje

Al finalizar esta parte, el estudiante podrá:

Entrenar y serializar un modelo de visión que supere baseline en un dataset propio.
Hacer fine-tuning de un Transformer pequeño para clasificación o generación.
Construir un mini-RAG con embeddings + retriever + LLM sobre un corpus de ~1000 documentos.
Servir un modelo entrenado vía API en una GPU y medir su latencia.
Explicar el tradeoff entrenamiento/serving para CNN vs ViT vs LLM para un caso concreto.

🗺️ Estructura temática

Fundamentos de redes neuronales — clases 100–106 — perceptrón, MLP, backprop, Keras (Sequential, Functional, Subclassing), Keras Tuner.
Entrenamiento de redes profundas — clases 107–117 — gradientes, inicialización, activaciones, normalización, optimizadores, schedules, regularización.
TensorFlow avanzado — clases 118–127 — tensores, custom layers/loops, autograph, tf.data, TFRecord, preprocessing layers, TFDS.
Visión por computadora — clases 128–134 — convoluciones, pooling, arquitecturas CNN modernas, transfer learning, detección/segmentación.
Secuencias y NLP — clases 135–155 — RNN, LSTM, GRU, 1D CNN, char-RNN, sentimiento, encoder-decoder, atención, Transformers, BERT/GPT, Hugging Face, LLMs, RAG.
Modelos generativos — clases 156–160 — autoencoders, VAE, GAN, difusión.
Reinforcement Learning — clases 161–165 — Gymnasium, policy gradients, MDPs, Q-learning, DQN, PPO/SAC.
Despliegue y escala — clases 166–174 — TF Serving, Vertex AI, TF Lite, TensorFlow.js, GPU, tf.distribute, entrenamiento a escala.

📥 Material descargable — parte completa

Materiales consolidados con TODAS las clases de esta parte (útiles para revisar offline o imprimir el bloque entero):

📄 Guía PDF — parte completa — todas las clases concatenadas con headings demoteados.
🎞️ Presentación PPTX — parte completa — portada + TOC + slides de cada clase.

📚 Ficha por clase

✨ 75 de 75 clases tienen contenido pedagógico ampliado (📖 Definiciones · ⚠️ Errores comunes · ❓ FAQ).

100 Perceptrón, MLP y backpropagation📖⚠️❓101 Regresión y clasificación con MLP📖⚠️❓102 Keras Sequential API📖⚠️❓103 Keras Functional API y Subclassing📖⚠️❓104 Callbacks, TensorBoard, guardar/restaurar modelos📖⚠️❓105 Keras Tuner (+ Optuna, Ray Tune)📖⚠️❓106 Ray Tune: HPO distribuido y a escala📖⚠️❓107 Vanishing/exploding gradients📖⚠️❓108 Inicialización (Glorot, He)📖⚠️❓109 Activaciones: ReLU, ELU, GELU, Swish, Mish📖⚠️❓110 Batch Normalization, Layer Normalization📖⚠️❓111 Gradient clipping📖⚠️❓112 Transfer learning, unsupervised pretraining📖⚠️❓113 Optimizadores: Momentum, Nesterov, AdaGrad, RMSProp, Adam, AdamW (+ Lion, Sophia)📖⚠️❓114 Optimizadores modernos: Lion, Sophia, Schedule-Free📖⚠️❓115 Learning rate scheduling📖⚠️❓116 Regularización: L1/L2, dropout, max-norm, MC dropout (+ Stochastic Depth, DropPath)📖⚠️❓117 Regularización moderna: Stochastic Depth, DropPath, LayerDrop📖⚠️❓118 TensorFlow: tensores, variables, operaciones📖⚠️❓119 Losses, métricas, capas, modelos custom📖⚠️❓120 Funciones y grafos (autograph)📖⚠️❓121 Custom training loops (+ PyTorch & PyTorch Lightning)📖⚠️❓122 PyTorch fundamentos: tensores, autograd, nn.Module📖⚠️❓123 PyTorch Lightning: Trainer, callbacks, distributed📖⚠️❓124 tf.data API📖⚠️❓125 TFRecord📖⚠️❓126 Keras preprocessing layers📖⚠️❓127 TensorFlow Datasets (TFDS)📖⚠️❓128 Capas convolucionales, filtros, feature maps📖⚠️❓129 Pooling📖⚠️❓130 Arquitecturas CNN: LeNet, AlexNet, VGG, GoogLeNet, ResNet, Xception, SENet, EfficientNet, ConvNeXt📖⚠️❓131 Transfer learning con CNNs preentrenadas📖⚠️❓132 Localización, detección, segmentación (+ DETR, Segment Anything, YOLOv11)📖⚠️❓133 Segment Anything (SAM / SAM 2): foundation model para segmentación📖⚠️❓134 YOLOv11 práctico: detección, segmentación, pose, tracking📖⚠️❓135 RNNs: neuronas recurrentes, BPTT📖⚠️❓136 Forecasting de series con RNN📖⚠️❓137 LSTM, GRU📖⚠️❓138 1D CNNs y WaveNet📖⚠️❓139 Generación de texto char-RNN📖⚠️❓140 Análisis de sentimiento📖⚠️❓141 Encoder-Decoder para traducción📖⚠️❓142 Mecanismos de atención📖⚠️❓143 Transformers: arquitectura, BERT, GPT (+ Flash Attention, RoPE, GQA)📖⚠️❓144 Flash Attention v2/v3, RoPE, GQA: el motor de los LLMs modernos📖⚠️❓145 Hugging Face Transformers (uso práctico)📖⚠️❓146 CLIP, SigLIP: multimodal embeddings (visión + texto)📖⚠️❓147 Whisper: ASR, transcripción, traducción de audio📖⚠️❓148 LLMs aplicados: fine-tuning, prompting (+ LoRA / QLoRA, DPO, vLLM)📖⚠️❓149 LoRA / QLoRA: fine-tuning eficiente de LLMs📖⚠️❓150 DPO y RLHF: alineamiento de LLMs📖⚠️❓151 vLLM y TGI: serving de LLMs en producción📖⚠️❓152 RAG básico y embeddings (+ hybrid search, re-ranking, MCP)📖⚠️❓153 MCP (Model Context Protocol): herramientas y datos para LLMs📖⚠️❓154 Agentes: tool use, ReAct, multi-agent📖⚠️❓155 LLM Evaluation: MMLU, MT-Bench, LLM-as-judge, evals propios📖⚠️❓156 Autoencoders: undercomplete, stacked, denoising, sparse📖⚠️❓157 Variational Autoencoders (VAE)📖⚠️❓158 GANs: DCGAN, Progressive GAN, StyleGAN📖⚠️❓159 Modelos de difusión (+ Stable Diffusion XL, ControlNet, LCM)📖⚠️❓160 Stable Diffusion XL + ControlNet en profundidad📖⚠️❓161 RL: aprendizaje por recompensa, Gymnasium (Farama)📖⚠️❓162 Policy gradients📖⚠️❓163 Markov Decision Processes📖⚠️❓164 TD Learning, Q-Learning, Deep Q-Networks📖⚠️❓165 RL moderno: A3C, PPO, SAC (vista general)📖⚠️❓166 TF Serving + gRPC (+ ONNX, TensorRT, vLLM/TGI)📖⚠️❓167 ONNX y ONNX Runtime: portabilidad e inference optimizada📖⚠️❓168 Despliegue en Vertex AI📖⚠️❓169 TF Lite (mobile/embedded)📖⚠️❓170 TensorFlow.js (navegador)📖⚠️❓171 Aceleración con GPU📖⚠️❓172 Entrenamiento multi-dispositivo, tf.distribute📖⚠️❓173 JAX y Flax: el stack moderno de Google para DL📖⚠️❓174 Entrenamiento a escala con Vertex AI📖⚠️❓