Python Data Science Program
📓 Abrir notebook en GitHub

Clase 114 — Optimizadores modernos: Lion, Sophia, Schedule-Free

Parte: 2 — Deep Learning · Fuente: Chen et al. (2023) Lion + Liu et al. (2023) Sophia + Defazio et al. (2024) Schedule-Free. ⏱️ Duración estimada: 75 min.

🎯 Objetivo

Conocer la nueva generación de optimizadores 2023-2024 que está reemplazando a AdamW en LLM training a escala: Lion (Google, signo del gradiente), Sophia (Stanford, segundo orden aproximado), Schedule-Free (Meta, sin LR scheduling). Saber cuándo justifican el cambio.

📚 Resultados de aprendizaje

Al finalizar, el estudiante podrá:

🗺️ Temas

📖 Definiciones y características

📂 Dataset / recursos

🧪 Ejercicios

  1. AdamW baseline: ViT-Tiny en CIFAR-10. LR=1e-3, wd=0.05.
  2. Lion: misma red, LR=1e-4, wd=0.5. Comparar accuracy y memoria.
  3. Sophia: con Hutchinson cada 10 steps. Comparar convergencia.
  4. Schedule-Free: AdamWScheduleFree(lr=1e-3, warmup_steps=500). Sin cosine.
  5. Memory: para modelo grande, medir VRAM con cada uno.

📝 Homework verificable

Comparar 4 optimizadores en ViT-Tiny + CIFAR-100:

  1. AdamW (baseline).
  2. Lion.
  3. Sophia.
  4. Schedule-Free AdamW.

Reportar: accuracy final, wall-time, peak VRAM.

Criterio de aceptación: Lion debe ahorrar ≥ 30 % VRAM vs AdamW; al menos uno de los modernos iguala o supera AdamW en accuracy.

⚠️ Errores comunes

Síntoma / mensaje Causa y cómo arreglar
Lion con LR de AdamW → loss=nan LR debe ser 3-10× menor. Fix: 1e-4 a 3e-4 típico.
Sophia muy lento Hutchinson costoso. Fix: estimar hessiano cada N steps (no cada uno).
Schedule-Free + cosine schedule Conflicto. Fix: NO usar scheduler externo.
Comparar wall-time sin igual cantidad de epochs Trampa. Fix: mismo epochs o early-stopping por accuracy threshold.
Lion con weight_decay bajo Resultados peores. Fix: subir wd 3-10× respecto a AdamW.

❓ Preguntas frecuentes

❓ Lion o AdamW en 2026?

Para modelos < 100M params: AdamW sigue siendo default seguro. Para LLM training a escala (>1B), Lion ahorra mucha memoria y gana papers (Chen 2023).

❓ Sophia en producción?

Aún experimental. Google reportó 2× speedup en LLM pretraining (770M). Vale probar.

❓ Schedule-Free realmente funciona sin warmup?

Recomienda warmup corto (500-1000 steps). El resto sin cosine.

❓ Implementaciones?

Lion: implementaciones community (lucidrains/lion-pytorch). Sophia: similares. Schedule-Free: schedulefree package oficial Meta.

❓ Lion en CV / fine-tuning?

Sí — paper original lo demostró en ViT, CLIP, modelos de difusión. Especialmente bueno para fine-tuning grande.

🔗 Referencias

📥 Material descargable

➡️ Siguiente clase

Clase 115 — Learning rate scheduling