GPT-5.4 pasa al humano promedio — y su propio CEO pide impuestos

⚡ Bit 1 — GPT-5.4 pasa el baseline humano en productividad de escritorio, y Altman saca el manual del desempleo

GPT-5.4 saca 75% en OSWorld — el benchmark que simula tareas reales de productividad en un desktop — contra 72.4% del experto humano. Es el primer modelo en superar a un humano capacitado en automatización de computadora de propósito general. Suma a eso 57.7% en SWE-bench Pro, 83% en GDPval (trabajo de conocimiento), ventana de contexto de 1M tokens y "native computer use" — es decir, el modelo opera aplicaciones como lo haría una persona, claro siempre y cuando estos benchmarks representen el mundo real que a veces no lo hacen así que veremos como se comporta en el día a día. Codex ya tiene 3 millones de usuarios activos semanales y enterprise pasa del 40% del revenue de OpenAI. Hasta ahí, era una nota técnica. Lo que hace la historia es el timing: días después del release, Sam Altman publicó "Industrial Policy for the Intelligence Age", un blueprint de 13 páginas comparado abiertamente con el New Deal de Roosevelt. Propone impuestos sobre "automated labor" (el famoso robot tax), un public wealth fund con participación ciudadana en el crecimiento impulsado por AI, y mover la base imponible de nómina hacia capital. La traducción: si la herramienta hace tu trabajo por $20 al mes, el problema fiscal llega antes que el técnico. No es altruismo — es Altman comprando cobertura política por adelantado. Para quien construye productos en LATAM, la lectura práctica duele: la capa de "automatizar workflow de escritorio" ya es commodity. El diferencial ya no es poder hacerlo. Es saber qué automatizar, para quién y cómo cobrarlo antes de que OpenAI lo empaquete directo al usuario final. 🔗 Fuente: OpenAI · The Hill · Fortune

⚡ Bit 2 — MiniMax M2.7: el agente open source que se optimiza solo, y casi alcanza a GPT-5.3-Codex

MiniMax liberó M2.7 en Hugging Face como open source. Es un MoE (Mixture-of-Experts) y los números lo ponen en otra liga dentro del mundo abierto: 56.22% en SWE-Pro (rozando el nivel de Opus) y 57.0% en Terminal Bench 2. SWE-Pro no son ejercicios de LeetCode — son log analysis, bug troubleshooting, security review y debugging de pipelines de ML. El desorden real de producción. Pero el titular no son los benchmarks. Es cómo los consiguieron. Durante el entrenamiento, una versión interna de M2.7 optimizó su propio scaffold de programación por más de 100 rondas autónomas — analizando trayectorias de fallo, modificando código, corriendo evaluaciones y decidiendo qué cambios mantener o revertir. Resultado: 30% de mejora de performance generada por el modelo sobre sí mismo. Esto abre una pregunta incómoda: si un lab puede meter el loop de self-improvement en su pipeline y otro no, ¿cuánto tarda la curva de capacidades en divergir? Y mientras esa pregunta arde, la foto macro cambia de color. Meta cerró Muse Spark. La transparencia de los modelos de frontera cayó de 58 a 40 puntos en el Foundation Model Transparency Index. Pero el open source no se muere — migra. MiniMax, DeepSeek, Qwen, Zhipu. El juego es adopción primero, monetización después. Para developers en la región: M2.7 es candidato serio para self-hosting de coding agents. Licencia permisiva, MoE (barato de servir), y un pipeline de mejora que no depende de que el lab pague ingenieros a full time. 🔗 Fuente: MiniMax · MarkTechPost · Hugging Face

⚡ Bit 3 — ICLR 2026 aterriza en Río y Chile enciende el supercomputador de Latam-GPT

Por primera vez en la historia, ICLR — una de las tres conferencias top-tier de ML del mundo — se hace en Latinoamérica. Del 23 al 27 de abril en el Riocentro Convention Center, Río de Janeiro. Que ICLR haya elegido Brasil no es un gesto diplomático. Es reconocer que la región genera investigación competitiva y que la comunidad crecía sin un espacio de primer nivel donde desplegarse. Durante esa semana, el mapa académico global va a incluir research groups latinos que hasta ahora no estaban en el radar de nadie. En paralelo, la Universidad de Tarapacá en el norte de Chile está instalando el supercomputador que entrenará Latam-GPT — el modelo fundacional abierto especializado en español y portugués regionales. Inversión cercana a $5M USD, más de 8 TB de información regional para el training, y respaldo de CENIA, universidades y entidades públicas de Chile, Uruguay, Brasil, Colombia, México, Perú, Ecuador y Argentina. No es un chatbot — es la base para que las aplicaciones latinas no tengan que rezarle a un modelo entrenado mayormente en inglés con sesgos del norte. Y de fondo, Paraguay pidiendo turno: $400M+ de Hive Digital para data centers tier-three aprovechando hidroeléctrica barata. El contraste que nadie quiere mostrar: solo 23% de organizaciones latinoamericanas generan valor económico del AI, y apenas 6% reportan valor significativo. La infraestructura está llegando — río, silicio, megavatios. Falta la capa de adopción real que convierta todo eso en productividad. Si puedes ir a Río, ve. Si no, al menos sigue los papers aceptados. 🔗 Fuente: ICLR · Euronews · BNamericas

🔗 Links Rápidos

→ Neural Computers (Meta AI + KAUST): Paper propone que la red neuronal misma actúe como la computadora — fusionando computación, memoria e I/O en un único modelo aprendido. Denso, pero el tipo de idea que si funciona reescribe cómo pensamos la arquitectura. Candidato fuerte para Paper Spotlight. Fuente

→ Netflix open-sourcea VOID: Modelo que borra objetos de videos preservando la física de la escena. Investigación conjunta con INSAIT. Aplicaciones directas en post-producción, privacidad y compliance de contenido. Fuente

→ Stanford AI Index 2026: GenAI llegó a 53% de adopción poblacional en 3 años — más rápido que la PC o internet. Pero la transparencia de los modelos de frontera se desploma (58 → 40 puntos) y el workforce disruption ya golpea primero a los trabajadores jóvenes. Fuente.

PD: El domingo publicamos el deep dive dominical — MCP en Producción: 10 Errores Que Te Van a Salir Muy Caros. CVEs reales, código en Python y TypeScript, un checklist que deberías correr antes de hacer deploy y una guía para gerentes, CTOs, CIOs. Si estás construyendo con agentes, este es el issue que guardas en bookmarks. [Léelo aquí →]

— BitNeuronal

GPT-5.4 pasa al humano promedio — y su propio CEO pide impuestos

Keep Reading

BitNeuronal