Python Data Science Program
📓 Abrir notebook en GitHub

Clase 174 — Entrenamiento a escala con Vertex AI

Parte: 2 — Deep Learning · Fuente: Géron, cap. 19 § Running Large Training Jobs on Vertex AI + docs Vertex AI Training. ⏱️ Duración estimada: 65 min.

🎯 Objetivo

Cierre del bloque de despliegue: lanzar training jobs a escala en Vertex AI (GCP managed) — cluster automático, GPUs/TPUs on-demand, hyperparameter tuning distribuido. Conocer alternativas: AWS SageMaker Training, Azure ML Jobs, y plataformas dedicadas a LLMs (Modal, Together AI).

📚 Resultados de aprendizaje

Al finalizar, el estudiante podrá:

🗺️ Temas

📖 Definiciones y características

📂 Dataset / recursos

🧪 Ejercicios

  1. Dockerize: escribir Dockerfile con TF + tu training script.
  2. Lanzar job: aiplatform.CustomJob(display_name='exp1', worker_pool_specs=[...]).run().
  3. HP tuning: HyperparameterTuningJob con Vizier; 20 trials.
  4. Multi-GPU spec: machine_type='a2-highgpu-4g' (4× A100).
  5. TensorBoard integration: Vertex TB para monitor.

📝 Homework verificable

Lanzar un training job de Fashion-MNIST en Vertex:

  1. Containerizar.
  2. Job de 1 GPU (n1-standard-4 + T4).
  3. Logs y output a GCS.
  4. Verificar accuracy similar a entrenamiento local.

Criterio de aceptación: el job termina con accuracy ≥ 0.87 y el modelo queda guardado en GCS.

⚠️ Errores comunes

Síntoma / mensaje Causa y cómo arreglar
Job falla al iniciar Image no accesible. Fix: push a Artifact Registry + permisos.
Olvidé apagar y factura $1000 Vertex jobs son time-limited pero HP tuning puede acumular. Fix: quota per project, alertas billing.
Logs no aparecen Tarda 1-2 min en stream. Fix: paciencia o gcloud ai custom-jobs stream-logs.
Multi-GPU pero job usa 1 TF no detecta GPUs en el container. Fix: imagen base con CUDA correcto.
Spot interrumpe a mitad Aceptable para experimentos. Fix: checkpointing frecuente.

❓ Preguntas frecuentes

❓ ¿Cuándo Vertex vs local?

Local para iteración. Cloud cuando: dataset no entra en RAM local, training > 1 día, HP tuning con muchos trials, multi-GPU/TPU.

❓ ¿TPU vs GPU?

TPU brilla en modelos TF/JAX grandes (LLMs, transformers de visión). GPU es más universal. PyTorch en TPU funciona (vía XLA) pero menos óptimo.

❓ ¿Spot/preemptible?

Para training con checkpointing, ahorra 70 %. Para inference o jobs cortos, evitar.

❓ ¿Modal vs Vertex?

Modal: DX excelente, billing por segundo, ideal para LLMs e inference serverless. Vertex: más enterprise features (compliance, IAM, audit).

❓ ¿Together AI / Replicate cuándo?

Cuando solo necesitás API a modelos open-source preentrenados (LLMs, difusión). No para training desde cero.

🔗 Referencias

➡️ Siguiente parte

Clase 175 — Distribuciones: normal, binomial, Poisson, exponencial

📥 Material descargable