Contexto del día

Día concentrado en tres ejes que cuentan la misma historia desde tres ángulos: acceso, autosuficiencia y costo. Anthropic abrió Mythos al público bajo el nombre Fable 5 — su Stripe testimonial cambia el cálculo de migración masiva. Microsoft consolidó la semana pasada el cuadro completo de su familia MAI (7 modelos in-house) con una tesis explícita de "long-term self-sufficiency" frente a OpenAI. Y Google empujó Gemini 3.1 Flash-Lite a US$0.25/1M de input — el precio más bajo del mercado para un modelo del tier. La pregunta para builders LATAM esta semana es triple: ¿qué modelo usar, dónde corre y a qué precio?

Verificación: cada bit cruzado con 2+ fuentes primarias. Cifras reportadas tratadas como tales cuando aplica.

🥇 Bit #1 — Claude Fable 5: Mythos para el público, con Stripe comprimiendo 2 meses de migración en 1 día

Qué pasó: El 9 de junio Anthropic lanzó Claude Fable 5, la primera versión de acceso público de un modelo de la clase Mythos. Hasta ayer, Mythos estaba restringido a ~50 socios aprobados vía Project Glasswing (cubierto el 26 mayo). Fable 5 hereda las capacidades pero las libera al público con un mecanismo de seguridad híbrida novedoso.

Benchmarks confirmados:

  • 95% en SWE-bench Verified (vs. Opus 4.8 en 88.6%)

  • 80% en SWE-bench Pro (vs. Opus 4.8 en 69.2%)

  • SOTA en software engineering, knowledge work, vision, scientific research

El testimonio que rompe la conversación: Stripe reportó que Fable 5 hizo una migración de código base completa en 1 día que habría tomado más de 2 meses al equipo. Cifra reportada por Anthropic, no validada independientemente, pero el cliente (Stripe) tiene reputación que defender.

Pricing: US$10 / 1M input + US$50 / 1M output. Más caro que Opus 4.8 (US$5/$25) pero significativamente menos que el costo equivalente en horas-developer.

Disponibilidad: API + planes Enterprise basados en consumo desde ayer. Gratis en Pro / Max / Team / Enterprise por asiento hasta el 22 de junio. Después: créditos de uso.

Seguridad híbrida (el patrón nuevo): para consultas en áreas de alto riesgo (ciberseguridad, biología, química, distillation de modelos), Fable 5 bloquea y delega la respuesta a Opus 4.8. Sucede en menos del 5% de sesiones según Anthropic.

Take: Tres lecturas. La primera, sobre validación de la estrategia: Mythos restringido en abril → Fable 5 público en junio confirma exactamente el patrón de lanzamiento escalonado por capacidad que cubrimos en mayo. La segunda, sobre arquitectura de productos: el patrón "seguridad híbrida con respaldo a modelo más seguro" es heredable. Para tu producto B2B, puedes implementar la misma lógica — usa Fable 5 por defecto, redirige a Opus 4.8 cuando el clasificador detecta una consulta sensible. Tres líneas de código, mucha mayor robustez. La tercera, sobre la economía de migración: US$50/1M de salida + 1 día vs. 2 meses de equipo es una decisión justificada cuando el código base heredado bloquea entregas. Para equipos LATAM con deuda técnica histórica, este es el primer modelo que justifica el costo de un sprint dedicado a migraciones masivas.

Fuentes:

🥈 Bit #2 — Microsoft consolida su familia MAI: 7 modelos in-house y la tesis de "long-term self-sufficiency"

Qué pasó: El 2 de junio en Microsoft Build 2026, Microsoft AI presentó la familia completa de 7 modelos MAI desarrollados internamente:

  • MAI-Thinking-1 — modelo de razonamiento, 35B parámetros activos, 256K de contexto, entrenado desde cero sin distillation. Microsoft reporta que iguala a Sonnet 4.6 en pruebas humanas ciegas y a Opus 4.6 en benchmark de programación.

  • MAI-Code-1-Flash — modelo de programación optimizado.

  • MAI-Image-2.5 y MAI-Image-2.5 Flash — imagen.

  • MAI-Transcribe-1.5 — transcripción.

  • MAI-Voice-2 y MAI-Voice-2-Flash — voz.

El planteamiento del CEO de Microsoft AI, Mustafa Suleyman, es "hill-climbing machine" (máquina de mejora continua): un sistema diseñado para mejorar con más cómputo, mejor data y evaluación más estricta. La tesis explícita: autosuficiencia a largo plazo — reducir activamente la dependencia de OpenAI a pesar de la inversión existente.

Detalle interesante: el MAI ajustado para Excel iguala a GPT-5.4 con 10x más eficiencia. Para cargas de trabajo de oficina enterprise, el cálculo de costos cambia.

Take: Esto lo cubrimos parcialmente en el newsletter del 4 de junio cuando salió MAI-Thinking-1. Una semana después, con los 7 modelos visibles, el panorama está claro: Microsoft no está comprando un seguro, está construyendo redundancia estratégica. Para LATAM, dos lecturas. Primera, sobre OpenAI: la presión competitiva sobre OpenAI aumentó significativamente esta semana — Microsoft (tu socio de nube) ahora tiene modelos propios, Anthropic supera a OpenAI en valuación con Fable 5 público, y Google ataca el margen con Flash-Lite. La economía detrás del IPO de OpenAI se vuelve más desafiante. Segunda, sobre tu stack: si tu producto enterprise corre en Azure, MAI ahora es opción nativa que no requiere salir de la jurisdicción de Microsoft. Para clientes regulados que ya están sobre Microsoft 365, integrar MAI tiene fricción cero. Vale evaluar.

Fuentes:

🥉 Bit #3 — Gemini 3.1 Flash-Lite a US$0.25/1M de input: Google empuja el piso del precio

Qué pasó: Google lanzó Gemini 3.1 Flash-Lite, un modelo de eficiencia con:

  • US$0.25 por 1M tokens de input (el más bajo del mercado en su tier)

  • 2.5x más rápido en tiempos de respuesta vs. versiones anteriores de Gemini

  • 45% más rápido en generación de output

Es el modelo más barato y más rápido que Google haya lanzado. Apunta directamente a cargas de trabajo de alto volumen: clasificación, extracción simple, formateo, RAG ligero.

Take: Conectando con el tip del día del martes (la auditoría de Tier 1/2/3): si Gemini Flash-Lite a US$0.25 es el nuevo piso, la pregunta de "¿qué porcentaje de mi factura puedo bajar a Tier 1?" se vuelve más urgente, no menos. Para equipos LATAM que clasifican volumen alto de entradas (tickets de soporte, comentarios de usuarios, descripciones de productos), el costo de Flash-Lite es prácticamente despreciable — y la menor latencia hace que cargas de trabajo que antes eran asíncronas ahora sean viables en tiempo real. Ejemplo concreto: clasificación de entradas durante el alta del usuario. Antes era "esperar 800ms es feo pero aceptable"; con Flash-Lite a ~300ms, ya es experiencia de usuario premium. El umbral económico para mover cargas a tiempo real bajó esta semana.

Fuentes:

🔗 Enlaces de interés

  • OpenAI Codex suma búsqueda web independiente + esquema MCP mejorado + nueva memoria de ChatGPT. Codex puede ahora llamar búsqueda web directamente desde el modo código, y el esquema de herramientas en MCP es más completo. En paralelo, el nuevo sistema de memoria de ChatGPT (más capaz y escalable) está en despliegue progresivo a usuarios Plus y Pro en EE.UU. Si tu integración corre Codex en producción, vale revisar los nuevos endpoints. (OpenAI Release Notes)

  • Anthropic lanzó Services Track + Partner Hub de la Red de Socios de Claude (3 jun). La jugada de servicios enterprise que cubrimos a fines de mayo se concretó. Permite a consultoras certificarse como implementadoras de Claude para clientes enterprise, con Anthropic como respaldo directo. Para consultoras LATAM que han estado construyendo soluciones sobre Claude, este es el momento de aplicar al programa — la diferenciación de "proveedor secundario" vs. "integrador regional preferido" pasa por esta red de socios. (Anthropic News)

  • Gemini 3.5 Pro llega este mes. Sundar Pichai en I/O dijo "denos hasta el próximo mes para tenerlo listo". Junio termina en 20 días — si llega Gemini 3.5 Pro antes de fin de mes, completa el cuadro de Google con Flash + Flash-Lite + Pro en un solo trimestre. Vale tener el ojo en blog.google entre el 16 y el 30 de junio. (LLM-Stats tracker)

💡 Tip del día — Cómo evaluar un modelo nuevo en 2 horas

Con 4 releases mayores esta semana (Fable 5, MAI Family completa, Gemini 3.1 Flash-Lite, y la actualización de Codex), la pregunta práctica para tu equipo no es "¿qué modelo es mejor?" — es "¿cómo evaluamos sistemáticamente sin perder una semana cada vez que sale uno nuevo?".

Una metodología honesta en 2 horas:

Hora 1 — Preparación y conjunto de evaluación

  1. Construye un conjunto de 20 prompts representativos de tu carga de trabajo real. No prompts inventados ni benchmarks públicos — prompts que ya pasan por tu producto en producción. Si trabajas con un agente, incluye casos donde sabes que el modelo anterior falla y casos donde funciona bien.

  2. Define 4 métricas concretas:

    • Calidad subjetiva (escala 1-5, evaluación ciega)

    • Tokens consumidos por prompt

    • Latencia P50 y P95

    • Costo por prompt

  3. Define el criterio de decisión: ¿qué umbral de calidad y costo justifica migrar?

Hora 2 — Ejecución y decisión

  1. Corre los 20 prompts en paralelo en el modelo actual y el nuevo. Si tienes acceso a la API de ambos, esto puede ser un script de 30 líneas de Python.

  2. Mézclalos para evaluación ciega: un compañero de equipo califica calidad sin saber qué modelo produjo cada respuesta.

  3. Tabula resultados y compara contra tu criterio de decisión.

  4. Decisión binaria: ¿migrar a producción, mantener como respaldo, o descartar?

Por qué importa hacerlo así: sin metodología, cada nuevo lanzamiento te genera ansiedad ("¿debo migrar a Fable 5?") sin datos. Con metodología, cada nuevo lanzamiento es un experimento de 2 horas con respuesta clara. Para equipos LATAM con runway ajustada, la diferencia entre "evaluamos 4 modelos esta semana sistemáticamente" y "estamos paralizados porque no sabemos cuál elegir" es operacional, no técnica.

Keep Reading