El 20% se come todo, compresión que cambia el juego, y visión AI en tu bolsillo

⚡ Bit 1 — PwC confirma lo que sospechabas: el 20% de empresas se lleva el 74% del valor de AI

PwC publicó hoy su estudio global AI Performance 2026, encuestando a 1,217 ejecutivos senior de 25 sectores. El dato brutal: el 20% de las organizaciones captura casi tres cuartas partes de todo el valor económico generado por AI. No es una brecha — es un abismo.

¿Qué hacen diferente los ganadores? No optimizan costos — buscan crecimiento. Son 2-3x más propensos a usar AI para identificar oportunidades en industrias adyacentes, están aumentando las decisiones sin intervención humana a un ritmo 2.8x mayor que sus peers, y sus empleados confían el doble en los outputs de AI. Además, los líderes tienen 1.7x más probabilidad de tener frameworks de responsible AI y governance boards cross-funcionales.

La lección es incómoda pero clara: AI no es un ecualizador — es un amplificador. Las empresas que ya estaban bien organizadas están despegando; el resto está automatizando su ineficiencia. Para startups en LATAM, esto significa que adoptar AI sin transformar procesos es tirar dinero. El framework importa más que el modelo.

🔗 Fuente: PwC 2026 AI Performance Study

⚡ Bit 2 — Google presenta TurboQuant: compresión 6x del KV cache sin perder calidad (y se presenta en ICLR... en Río)

Google Research publicó TurboQuant, un algoritmo que comprime el KV cache de LLMs a 3-4 bits por elemento — logrando una reducción de 4-6x en memoria sin reentrenamiento ni fine-tuning. En benchmarks estándar, TurboQuant a 3.5 bits iguala la precisión del modelo completo a 32 bits. A 4 bits, entrega hasta 8x de speedup en cómputo de attention logits en H100.

El truco técnico: una rotación ortogonal aleatoria que distribuye la energía del vector uniformemente, convirtiendo cada coordenada en una distribución estadística predecible. Después, cuantización óptima. Simple en concepto, brutal en resultados. Ya hay múltiples implementaciones open-source en GitHub, incluyendo integración con vLLM y llama.cpp.

¿Lo mejor? El paper se presenta en ICLR 2026 el 25 de abril... en Río de Janeiro. Para devs en LATAM que hacen inference optimization, esta es posiblemente la herramienta más práctica del mes. Compresión 6x del KV cache significa servir el mismo modelo con una fracción del hardware. Eso cambia la economía de correr LLMs localmente.

🔗 Fuente: Google Research Blog · GitHub

⚡ Bit 3 — Liquid AI mete un modelo de visión de 450M parámetros en tu teléfono — y razona en 240ms

Liquid AI lanzó el 11 de abril LFM2.5-VL-450M, un modelo vision-language de apenas 450 millones de parámetros que corre en edge hardware: Jetson Orin, AMD Ryzen AI, Snapdragon 8 Elite. Procesa una imagen de 512x512 y devuelve outputs estructurados en menos de 250ms — suficiente para analizar video a 4 FPS con comprensión visual completa.

Las mejoras respecto al modelo anterior son significativas: predicción de bounding boxes (pasó de 0 a 81.28 en RefCOCO-M), function calling nativo, soporte multilingüe para 8 idiomas incluyendo español y portugués, y escalado de preentrenamiento de 10T a 28T tokens. En benchmarks de visión, supera a SmolVLM2-500M de Hugging Face en la mayoría de tareas.

El edge AI dejó de ser una promesa. Un modelo de 450M que entiende imágenes, habla español, predice bounding boxes y responde en 240ms — corriendo en hardware que cabe en tu mano. Para aplicaciones de visión por computadora en LATAM (agricultura de precisión, manufactura, retail), esto elimina la dependencia de cloud y la latencia que viene con ella.

🔗 Fuente: Liquid AI Blog · Hugging Face

🔗 Links Rápidos

→ Anthropic vs. Trump — la saga continúa: La corte de apelaciones de D.C. rechazó el pedido de Anthropic de bloquear la orden del Pentágono que la declara "riesgo de cadena de suministro". El caso sigue abierto con audiencia el 19 de mayo. Mientras tanto, un juez en San Francisco falló a favor de Anthropic. Dos cortes, dos resultados. Fuente

→ DeepMind lanza framework para medir progreso hacia AGI + hackathon de $200K: 10 facultades cognitivas (percepción, razonamiento, metacognición...) mapeadas con tests inspirados en neurociencia. El hackathon en Kaggle cierra el 16 de abril — 3 días para participar. Fuente

→ Qwen3-TTS: clonación de voz open-source con 3 segundos de audio: Alibaba liberó bajo Apache 2.0 modelos de text-to-speech con soporte para 10 idiomas incluyendo español y portugués. Latencia de 97ms, diseño de voz por lenguaje natural, y streaming en tiempo real. Fuente

PD: Ayer publicamos el deep dive dominical — MCP en Producción: 10 Errores Que Te Van a Salir Muy Caros. CVEs reales, código en Python y TypeScript, un checklist que deberías correr antes de hacer deploy y una guía para gerentes, CTOs, CIOs. Si estás construyendo con agentes, este es el issue que guardas en bookmarks. [Léelo aquí →]

El 20% se come todo, compresión que cambia el juego, y visión AI en tu bolsillo

🔗 Links Rápidos

Keep Reading

BitNeuronal