🥇 Bit 1 — Anthropic firma con SpaceX por Colossus 1: 300+ MW, 220.000 GPUs y Claude Opus 4.7

Qué pasó: En su conferencia anual Code w/ Claude (San Francisco, 6 de mayo), Anthropic anunció un acuerdo de cómputo con SpaceXAI para tomar toda la capacidad del data center Colossus 1 en Memphis: 300+ MW y más de 220.000 GPUs (mezcla de H100, H200 y GB200), con la capacidad nueva entrando online "dentro del mes". La misma jornada trajo el lanzamiento de Claude Opus 4.7 (mejor visión, mejor output de slides, docs y UIs), duplicación de los rate limits de cinco horas de Claude Code en Pro, Max, Team y Enterprise, y dos features fuertes en Managed Agents: multi-agent orchestration y "Dreaming" (el agente revisa sesiones pasadas y se auto-mejora).

Take: Anthropic está comprando el campus que xAI dejó atrás — literalmente. Esto resuelve el cuello de botella más visible de 2025 (rate limits de Claude Code) y al mismo tiempo da pie a una afirmación más interesante: con memoria persistente + multi-agent orchestration + sesiones que se auto-corrigen, el producto ya no es "un modelo grande", es una flota. Para founders LATAM con presupuesto ajustado, vale revisar dos cosas esta semana: si los nuevos límites cambian el costo real de tu pipeline en Claude Code, y si Managed Agents elimina la necesidad de mantener tus propios scaffolds de orquestación.

📎 Fuentes: Bloomberg · CNBC · Anthropic Opus 4.7 · Simon Willison — liveblog Code w/ Claude

🥈 Bit 2 — GPT-5.5 Instant es el nuevo default de ChatGPT: −52,5% en alucinaciones (en evals internos)

Qué pasó: OpenAI reemplazó GPT-5.3 Instant por GPT-5.5 Instant como modelo por defecto en ChatGPT (5–6 de mayo). En evaluaciones internas sobre prompts "high-stakes" — medicina, derecho, finanzas — reporta 52,5% menos claims alucinados que su predecesor, y −37,3% en un set de conversaciones que usuarios habían marcado como factualmente erróneas. La metodología usa un grading model con acceso web. Salió también el system card oficial.

Take: Los números importan, pero hay dos asteriscos. Primero: la comparación es contra el modelo anterior de OpenAI, no contra Claude o Gemini — no es un benchmark cross-lab. Segundo: es una evaluación interna con grader propio, sin validación independiente publicada. Útil como señal de tendencia (sí, los defaults siguen mejorando rápido), no como prueba de que ChatGPT alucina menos que la competencia. Para equipos LATAM que usan ChatGPT en flujos de compliance o legal, vale correr tus propios spot-checks antes de relajar revisión humana.

📎 Fuentes: OpenAI announcement · System Card · TechCrunch · Implicator.ai — breakdown

🥉 Bit 3 — Google DeepMind se mete a EVE Online: Fenris Creations (ex-CCP Games) gana independencia y se vuelve laboratorio de agentes multi-agent

Qué pasó: El 6 de mayo el estudio detrás de EVE Online anunció dos movimientos en paralelo: (1) se separa de Pearl Abyss tras una transacción de $120 millones y se vuelve independiente bajo el nombre Fenris Creations, y (2) entra en una research partnership con Google DeepMind, que toma una participación minoritaria en la nueva compañía. El foco declarado: long-horizon planning, memory y continual learning sobre una versión offline de EVE Online corriendo en server local de DeepMind.

Take: Esto es mucho más interesante que un deal de gaming. EVE Online es la simulación más madura del mundo de economía de jugadores emergente, geopolítica multi-actor y coordinación de gran escala — 22 años de datos de un universo donde miles de agentes negocian, se traicionan, forman alianzas y colapsan imperios sin scripts pre-armados. Para DeepMind, que viene de Atari DQN → AlphaGo → AlphaStar → SIMA, EVE es el siguiente upgrade natural del "training ground" de juegos. La diferencia: AlphaGo aprendió un juego de información perfecta, SIMA aprende environments de un solo agente. EVE es información imperfecta + multi-agent + horizon de meses-años + economía con scarcity real. Si DeepMind logra agentes que sobreviven y prosperan ahí adentro, los outputs van a alimentar directamente la próxima generación de agentes para marketplaces, simulación financiera, supply chains y negociación enterprise.

Para LATAM, el ángulo práctico está dos años abajo: las publicaciones que salgan de esta partnership en 2026-2027 van a ser referencia directa para cualquier equipo construyendo agentes que negocien en marketplaces (Mercado Libre Agentic, Rappi delivery dispatch, integraciones B2B inter-empresariales). Los frameworks de evaluación de "agente coordina recursos en environment hostil con incentivos cruzados" todavía no existen como benchmarks abiertos. Vale seguir esto de cerca — y si construyes producto agentic, considerar usar simuladores tipo MMO como entorno de testing antes que esperar a que aparezca un SWE-bench equivalente para coordinación multi-agente.

📎 Fuentes: Bloomberg · Anuncio oficial Fenris Creations · PC Gamer — análisis · 9to5Google

🔗 Links Rápidos

→ IBM presenta el "blueprint del operating model de IA" en Think 2026 (5 may): Anuncios principales — watsonx Orchestrate next-gen (multi-agent orchestration), IBM Confluent (real-time data para IA), IBM Concert (intelligent operations) y IBM Sovereign Core (independencia operacional para regulados). El mensaje: la fase experimental de IA enterprise terminó. Para CIOs en banca, salud y gobierno LATAM que ya tienen stack IBM, vale revisar el roadmap antes de comprometer presupuesto Q3-Q4 a competidores. IBM Newsroom

→ Coinbase corta 14% de su staff (~700 personas) y reescribe el org chart con "player-coaches" en lugar de managers, citando AI como driver del cambio. Fortune

→ Big Tech va por $725B en capex 2026 (+77% YoY) mientras los layoffs por AI cruzan los 100K en lo que va del año. Invezz · TechRadar

WEEKLY STOCKPILE

Material complementario para análisis profundo durante la semana.

📄 Paper Spotlight — candidatos para análisis profundo

1. Metodología de evals de alucinación de OpenAI (GPT-5.5 Instant System Card)

Vale la pena un breakdown técnico. La novedad no es solo el −52,5% — es que OpenAI publicó su pipeline (LLM-as-grader con web access para verificar claims, separación entre "% de claims alucinadas" y "% de respuestas con al menos una alucinación"). Útil para equipos que están intentando construir sus propios evals internos. Incluir comparación con cómo Anthropic mide HHH y cómo DeepMind reporta factualidad.

🔗 System Card oficial

2. "Agentic Reasoning for Large Language Models" (arXiv:2601.12538) — survey

Buen frame teórico para una pieza que conecte con todo lo que se anunció esta semana en Managed Agents. Estructura agentes en Perception / Brain / Planning / Action / Tool Use / Collaboration. Útil para lectores que están construyendo agentic en producción y quieren un mapa mental sólido.

🔗 arXiv:2601.12538

3. "From Laboratory to Real-World Applications: Benchmarking Agentic Code Reasoning at the Repository Level" (arXiv:2601.03731)

Conecta directo con el lanzamiento de Claude Code multi-agent. Los benchmarks de coding clásicos (HumanEval, SWE-bench) ya no capturan lo que importa cuando el agente tiene que mantener consistencia a través de un repo entero. Buen ángulo para devs LATAM que están migrando de "Claude responde a un prompt" a "Claude opera sobre el repo".

🔗 arXiv:2601.03731

🌎 LATAM en Foco — historias regionales para análisis

1. La transición AI-first de Nubank vía Hyperplane. Nubank ya pasó los 127M de clientes y formalizó su shift de "digital-native" a "AI-first" con la adquisición de Hyperplane (data intelligence de Silicon Valley). El frame que están usando — Money Platforming: deep learning sobre datos no estructurados para personalización financiera hyper-individual — vale la pena disectar. Es el caso LATAM más maduro de transformación AI en banca, y probablemente el playbook que van a copiar Banco Inter, NuColombia y bancos tradicionales argentinos.

2. MercadoLibre y "Agentic Commerce". Bajo la nueva CEO Ariel Szarfsztejn (efectivo enero 2026), MELI está empujando agentic commerce — agentes propios que negocian y descubren productos por el usuario. El Q4 cerró con $8.8B y +45% YoY. Hay que entender qué tan "agentic" es de verdad vs. agentic-washing — es una historia para explorar con números, no con press releases.

3. Q1 2026 LATAM venture funding: el late-stage volvió. $1.03B en Q1, con $761M en late-stage/growth (+158% YoY). Brasil sigue liderando, México crece 53%. Vale una pieza específica sobre dónde está aterrizando ese capital en AI — porque la narrativa de "LATAM se quedó atrás en IA" merece chequearse contra los datos reales del trimestre.

🔥 Hot Take — tendencia que está madurando

El "AI capex vs. layoffs" ya no es una correlación, es una política.

Esta semana cristalizó algo que venía construyéndose: PayPal −20%, Coinbase −14%, Meta −8.000 (que aterrizan el 20 de mayo), Microsoft VRP de 8.750 personas, Arctic Wolf −250 — todas las cartas a empleados citan AI explícitamente como justificación. Y al otro lado, $725B de capex 2026 entre Google, Amazon, Microsoft y Meta.

Ya no es "estamos invirtiendo en AI Y reestructurando" — es "estamos pagando el AI capex CON los layoffs".

El take para el lector LATAM: si tu equipo tiene call centers, BPO o software outsourcing junior, el cálculo de margen de tus clientes US/EU cambió esta semana. Vale anticipar la conversación con renovaciones del Q3-Q4.

🧰 Toolbox — herramientas para la sección de devs

1. Claude Managed Agents — multi-agent orchestration + Dreaming. Anunciado el 6 de mayo. Lo que vale destacar: (a) "fleets" de agentes para tareas complejas, (b) Outcomes declarativos (defines qué es éxito, Claude itera), (c) "Dreaming" — el agente inspecciona sesiones previas y se auto-mejora. Para devs que ya están en Claude Code, es un upgrade gratis del workflow.

2. Claude Code: nuevos plugins + sub-agentes con worktree. Soporte de plugins más amplio, manejo más limpio de MCP y modelos, y fixes de reliability en terminal/worktree/sub-agent workflows. Para equipos chicos que ya usan Claude Code para code review (como mencionamos en el post del domingo), vale revisar el changelog de Claude Code de esta semana.

🔗 code.claude.com/docs/en/whats-new

3. Hugging Face Transformers v5.8 con DeepSeek-V4. DeepSeek-V4 (MoE next-gen) llegó nativamente a Transformers. También Gemma 4 Assistant (speculative decoding para Gemma 4) y Granite Speech Plus (multimodal speech-to-text con timestamps por palabra). Útil para equipos LATAM que están armando pipelines de transcripción/asistencia en español.

🔗 github.com/huggingface/transformers/releases

bitneuronal se escribe desde LATAM, para equipos que construyen con IA de verdad. Si te lo reenviaron y quieres recibirlo cada día, suscríbete. Si ya estás suscrito, compártelo con alguien que lo necesite.

Dudas, sugerencias o noticias que se nos escaparon: responde a este correo.

Hasta mañana.

Anthropic se queda con Colossus 1, GPT-5.5 Instant es nuevo default de ChatGPT, y Google DeepMind compra parte del estudio de EVE Online

WEEKLY STOCKPILE

📄 Paper Spotlight — candidatos para análisis profundo

🌎 LATAM en Foco — historias regionales para análisis

🔥 Hot Take — tendencia que está madurando

🧰 Toolbox — herramientas para la sección de devs

Keep Reading

BitNeuronal