Meta libera Llama 4 y lanza su primera API oficial: implicancias técnicas y estratégicas

2 min read

En su conferencia inaugural LlamaCon (29‑30 abr 2025), Meta presentó Llama 4 Scout y Llama 4 Maverick, dos modelos basados en una arquitectura Mixture‑of‑Experts (MoE) que escala hasta casi dos billones de parámetros totales. Por primera vez, la compañía habilitó una API oficial, complementando la tradicional publicación de pesos open‑source respaldada por la nueva Community License v4. Con entrenamiento distribuido en tres clústeres de 4096 GPUs NVIDIA Blackwell y pre‑entrenamiento en 200 idiomas, Llama 4 se posiciona como rival directo de GPT‑4o y Gemini 2.5, con ventajas de portabilidad y coste inferencial gracias a sparsity routing.

1. Arquitectura de Llama 4
• Mixture‑of‑Experts + early fusion: un router selecciona dinámicamente 4 de 16 expertos por token, habilitando 288 B parámetros activos (Scout) o 512 B (Maverick) dentro de un total de ≈2 T parámetros.
• Token window: 128 k para texto; Maverick agrega codificadores de imagen y audio unificados mediante embeddings de 2048 dimensiones.
• Infraestructura: entrenamiento en 3 clústeres de 4096 GPUs Blackwell con 30 TB HBM3e cada uno; pipeline parallelism + ZeRO‑3 + QLoRA para reducir VRAM.

2. Entrenamiento y cobertura lingüística
El corpus supera los 15 TB de texto limpio y 2 PB de imágenes/audio. Incluye 200 idiomas, 100 de ellos con más de 1 G tokens, para reducir sesgos anglocéntricos.
Se realizó un pre‑ajuste supervisado con 3 M pares de instrucciones humanas y un paso RLHF multi‑turno de 1 M de diálogos, reforzando habilidades de agente.

3. Licencia Community v4 y API pública
La nueva Community License v4 mantiene la filosofía open‑weight: los usuarios pueden alojar los modelos on‑premise o en nubes públicas, incluyendo AWS Bedrock y IBM watsonx.ai. La API oficial ofrece un token gratis de bienvenida y precios pay‑as‑you‑go, simplificando la adopción para equipos que no desean gestionar pesos locales.

4. Comparativa con GPT‑4o y Gemini 2.5
Meta afirma un 30 % de ahorro inferencial gracias al enrutamiento disperso y sparsity estructurada. Benchmarks internos en MMLU y LMArena sitúan a Maverick al nivel de GPT‑4o en razonamiento general, con ventaja en multimodalidad bajo costo.

5. Casos de uso
• Chatbots de atención soberanos en datos (finanzas, salud).
• Análisis en tiempo real de streams de audio‑video (moderación, subtitulado).
• Aplicaciones edge donde la portabilidad legal y el cómputo flexible son clave.

6. Hoja de ruta
Q2‑2025: Meta lanzará un chatbot premium con suscripción mensual y publicará una app IA independiente —ya adelantada en fase beta con creadores de contenido. A mediano plazo, planea integrar Llama 4 en sus plataformas sociales y potenciar Meta AI Studio para creación de agentes.

7. Desafíos y controversias
La licenciamiento open‑weight implica riesgos de uso malicioso. Meta presentó Llama Guard 4 y Prompt Firewall para mitigar jailbreaks, pero la eficacia a gran escala está por validarse.