DeepSeek V4-Pro empata a Claude Opus, Alibaba abre Happy Horse, y la RAM subió 110%

⚡ Bit 1 — DeepSeek V4-Pro: 1,6T parámetros, Putnam perfecto, dentro de 0,2 puntos de Claude Opus 4.6 — y open source

El 24 de abril DeepSeek liberó en Hugging Face los pesos de V4-Pro y V4-Flash, y los números obligan a sentarse. Desglose:

V4-Pro: 1,6 trillones de parámetros totales con arquitectura MoE, 49B activos por token, pre-entrenado sobre 33T tokens.
V4-Flash: variante eficiente de 284B parámetros para inferencia rápida.
Contexto: 1 millón de tokens nativo.
Putnam-2025: V4-Pro-Max sacó un 120/120 proof-perfect. No es "casi" — es la primera vez que un modelo abierto logra puntuación perfecta en el benchmark matemático más exigente del mercado.
SWE-bench Verified: 80,6% — a 0,2 puntos de Claude Opus 4.6, el state-of-the-art en coding agents cerrado.
Eficiencia brutal: en contexto 1M, V4-Pro usa solo 27% de los FLOPs por token y 10% del KV cache de DeepSeek-V3.2. No es un modelo más grande que es más caro — es más grande y más barato de inferir.

La parte que más duele en San Francisco no es el benchmark, es el pricing. Algunos análisis ya estiman que V4-Pro corre a ~1/7 del costo de GPT-5.5 para el mismo throughput, y los pesos están abiertos para self-host con Apache 2.0. Traducción: el premium que OpenAI y Anthropic cobran por API frontier acaba de quedar bajo presión real, no académica. Si eres un equipo construyendo agentes con load alta de inferencia, hoy mismo tienes que correr la cuenta: ¿cuánto te ahorras migrando workloads no-críticos a V4-Pro vía Hugging Face Inference Endpoints o NVIDIA NIM?

El segundo efecto, menos obvio, es de defendibilidad. Hace 12 meses la tesis bull de OpenAI/Anthropic era "modelos cerrados son 12-18 meses superiores a los abiertos, y ese gap se mantiene". Hoy ese gap, en coding y math, es 0,2 puntos de SWE-bench y un benchmark perfecto en Putnam. El moat técnico se transformó en moat de distribución, ecosistema y compliance — y eso es mucho menos defendible.

Para LATAM, V4-Pro es probablemente la noticia más impactante del mes para equipos que estaban frenados por costos de API. Un fintech en CDMX que quería desplegar un agente de soporte 24/7 sobre GPT-5.5 y abandonó el proyecto porque la cuenta no daba — hoy puede prototiparlo sobre V4-Flash (más barato), validar performance, y migrar a V4-Pro self-hosted en GPU H100 de un proveedor regional. El piso de entrada para construir con frontier-class AI bajó de "necesito $20K/mes en API" a "necesito una GPU decente y saber configurar Ollama". Eso cambia quién puede competir.

🔗 Fuente: The Register · TechCrunch · Hugging Face · Artificial Analysis

⚡ Bit 2 — Alibaba abre Happy Horse al mundo: el modelo de video que destrona a ByteDance llega con API global

Ayer, 27 de abril, Alibaba lanzó la beta global de Happy Horse 1.0 — el modelo de generación y edición de video que ya había roto leaderboards en abril cuando salió la versión interna, y que ahora está disponible para creadores en todo el mundo vía la web oficial y la API de Alibaba Cloud Model Studio (Bailian). Antes de la apertura, Happy Horse ya superaba a Seedance 2.0 de ByteDance, el modelo que había dominado el ranking durante meses.

La arquitectura es lo que hace que valga la pena prestar atención: transformer unificado que procesa texto, imagen y audio simultáneamente. No es un pipeline encadenado donde el text encoder le pasa al vision encoder y después al diffuser — es un solo modelo que ve y escribe los tres modos en paralelo. El resultado es coherencia inter-modal mejor que la competencia: voz que sincroniza con labios, motion que respeta la física implícita en el audio, etc.

Las capacidades cubren todo el ciclo de creación de video:

Text-to-Video (T2V): video desde prompt
Image-to-Video (I2V): animar una foto
Subject-to-Video (S2V): insertar un personaje específico de una imagen referencia y mantener su identidad a lo largo del clip
Video-to-Video (V2V): editar un video existente preservando estructura y motion
Subject-and-Video-to-Video (SV2V): reemplazar un personaje en un video existente sin alterar el resto

Ese último es la feature killer para producción: te permite cambiar al protagonista de un clip ya filmado sin re-renderizar todo el background ni perder el match de iluminación. Es el feature que productores publicitarios y equipos de post-producción venían pidiendo a gritos.

Para LATAM esto es un golpe directo al costo de producción audiovisual. Una agencia en Bogotá, Lima o Buenos Aires que hoy paga $15-30K USD por un spot de 30 segundos puede prototipar 10 variantes con Happy Horse en una mañana, y mandar a producción tradicional solo la ganadora. La beta tiene 10% de descuento por early access vía Bailian. La ventana de aprendizaje son los próximos 60 días — después el pricing se normaliza y los competidores también van a entrar.

🔗 Fuente: Bloomberg · CNBC · GuruFocus

⚡ Bit 3 — La crisis de memoria es real: RAM subió 110% y SSDs 147% en Q1, y va hasta 2028

Mientras todos miran modelos y deals, el shock de hardware del trimestre pasa por debajo del radar y es el factor que más impacta a equipos que construyen producto en LATAM. Los números de Q1 2026:

RAM consumer: +110% de aumento de precio
SSDs: +147%
DRAM contract: +55-60% QoQ
NAND Flash: +33-38% QoQ
En 9 meses, los contratos de DRAM se multiplicaron por 4 a 4,5x

La causa es estructural, no coyuntural: producir 1 bit de HBM consume ~3x el wafer capacity que producir 1 bit de DDR5. Los gigantes de memoria (Samsung, SK hynix, Micron) están corriendo el cálculo y la respuesta es obvia — dedicar líneas a HBM para clientes AI deja más margen que producir RAM para PCs y servers tradicionales. Resultado: la demanda de IA está canibalizando la oferta de memoria general. HBM ya consume 23% de los wafers de DRAM.

Lenovo, Dell, HP, Acer y ASUS ya avisaron a clientes corporativos de subas de 15-20% en hardware y están reseteando contratos. La memoria pasó de representar 10-18% del costo de un laptop a ~20%. Y según Gartner, Counterpoint y TrendForce, el cuadro no se normaliza hasta 2028.

Implicación para CTOs y founders en LATAM: el costo total de tu stack de IA no es solo OpenAI/Anthropic vía API. Si vas a montar inferencia on-prem, GPUs propias, o aunque sea workstations decentes para equipos de research/data, cotizá ya y firmá contratos largos. El equipo que retrase procurement 6 meses va a pagar 30-40% más por la misma config. Y si vendes SaaS B2B con clientes que renuevan hardware corporativo en 2026-2027, prepará la conversación: tus customers van a tener menos budget de IT discrecional porque la línea de hardware se les dispara.

El CapEx de IA dejó de ser problema solo de hyperscalers. Ya está llegando al laptop del data scientist en Monterrey.

🔗 Fuente: Wccftech · TrendForce · IDC · CNBC

🔗 Links Rápidos

→ Microsoft Copilot Agent Mode GA en Word, Excel y PowerPoint (22 abr): Microsoft pasó a disponibilidad general el modo agente en su trío estrella de Office. Ya no sugiere — ejecuta multi-step: redacta documentos completos, reestructura análisis, rearma decks sin que tengas que aprobar cada paso. Disponible por defecto en M365 Copilot, M365 Premium, y planes Personal/Family. Es la jugada para retener usuarios que estaban migrando a Notion AI y ChatGPT Workspace. Fuente

→ Adobe mata Experience Cloud y lanza CX Enterprise con "Coworkers" agentic (20 abr): En Adobe Summit 2026 anunciaron el reemplazo total del paraguas Experience Cloud por CX Enterprise, una arquitectura AI-first organizada en tres pilares: Brand Visibility, Customer Engagement y Content Supply Chain. El feature central son los CX Enterprise Coworkers — agentes persistentes que monitorean señales, recomiendan next-best-action y ejecutan campañas hacia objetivos de negocio. Le decís "subí 3% el cross-sell" y el agente arma audiencia + creative + plan de medios. Interopera con AWS, Anthropic, Google Cloud, Microsoft y OpenAI. Fuente · MarTech

→ Merck firma con Google Cloud por hasta $1B en agentic AI (22 abr): Multi-year deal que despliega agentes en R&D, manufacturing, comercial y funciones corporativas de la farmacéutica. Incluye Gemini Enterprise + ingenieros de Google Cloud embebidos. La parte interesante: el contrato es a 10 años o más. Es el plantilla de cómo va a verse el deal típico de "big enterprise + hyperscaler" en los próximos 24 meses. Fuente · Constellation Research

→ Anthropic abre Sídney (27 abr): Theo Hourmouzis fue nombrado General Manager para Australia y Nueva Zelanda. Es el segundo lab frontier en aterrizar oficina formal en APAC fuera de Tokio/Singapur. Para LATAM la pregunta obvia: ¿cuándo llega la oficina regional? Spoiler: probablemente São Paulo, no antes de Q4 2026. Fuente

→ Dato del día: 40% de las apps enterprise tendrán agentes de IA antes de fin de año, vs 5% en 2025 — pero solo el 10% de las organizaciones logró escalar agentes a producción. El cuello de botella no es la tecnología, es la gobernanza. Quien resuelva access control, auditoría y compliance para agentes va a ganar el contrato de implementación.

bitneuronal se escribe desde LATAM, para equipos que construyen con IA de verdad. Si te lo reenviaron y quieres recibirlo cada día, suscríbete. Si ya estás suscrito, compártelo con alguien que lo necesite.

Dudas, sugerencias o noticias que se nos escaparon: responde a este correo.

Hasta mañana.

DeepSeek V4-Pro empata a Claude Opus, Alibaba abre Happy Horse, y la RAM subió 110%

Keep Reading

BitNeuronal