El modelo es la parte fácil: bienvenido al año del agent harness

Dos equipos arrancan con el mismo modelo. Mismo Claude, o mismo GPT. Mismo presupuesto, mismo problema. Seis meses después, uno tiene un agente que resuelve el 80% de los tickets de soporte sin intervención humana. El otro tiene un demo bonito que se rompe cada vez que un cliente escribe algo inesperado.

¿Qué cambió entre los dos? No fue el modelo. Fue el harness.

Si seguiste de cerca el mundo de la IA durante 2025, probablemente escuchaste hablar de agentes. Si lo estás siguiendo en 2026, vas a empezar a escuchar mucho más la palabra "harness". Vivek Trivedy, de LangChain, lo resumió en una frase que ya circula entre quienes construyen agentes en producción: "Si no eres el modelo, eres el harness." Es exagerado, pero apunta a algo real. Y vale la pena entenderlo.

Qué es un agent harness

Un agent harness es toda la infraestructura que rodea al modelo de lenguaje para que pueda hacer cosas en el mundo real. El modelo razona; el harness es lo que le permite ejecutar.

La analogía que mejor funciona es la de Beren Millidge: un LLM solo es una CPU sin memoria, sin disco y sin puertos. Puede pensar, pero no puede recordar lo que hizo ayer, no puede leer un archivo, no puede llamar a una API, no puede pedirte aprobación antes de borrar algo. El harness es el resto de la computadora: la RAM, el sistema de archivos, los drivers, las reglas de permisos, el sistema operativo.

Cuando alguien dice "construí un agente", lo que construyó es un harness y lo apuntó a un modelo. El agente, como tal, es el comportamiento emergente: la entidad que parece tener objetivos, usar herramientas y corregirse a sí misma. Esa apariencia sale enteramente del harness.

El término se formalizó a principios de 2026, pero el concepto venía mucho antes. Lo nuevo es que la industria empezó a reconocer que esta capa es donde está la verdadera ingeniería.

Por qué importa, con números

La matemática es brutal. Imagina que un agente tiene que ejecutar diez pasos para completar una tarea, y cada paso tiene un 95% de probabilidad de éxito. Suena bien. El resultado final es 60%. Cuatro de cada diez veces algo falla. Y un agente promedio en producción ejecuta muchos más que diez pasos.

Las consecuencias se ven en casos concretos:

  • Manus, el agente autónomo que se hizo viral a principios de 2025, pasó seis meses y cinco reescrituras completas de arquitectura antes de estar listo para producción.

  • El equipo de LangGraph iteró durante más de un año sobre cuatro arquitecturas distintas hasta encontrar una que aguantara.

  • Cuando Vercel construyó su agente de coding v0, sacaron el 80% de las herramientas disponibles para el modelo. Los resultados mejoraron. Más herramientas no significaba mejor agente; significaba más confusión, más selecciones incorrectas, más fallas.

La conclusión es incómoda para mucha gente: a veces el harness mejora restringiéndole opciones al modelo, no dándole más.

Por el lado positivo, Microsoft documentó cómo su agente para incidentes de Azure pasó de un tiempo promedio de mitigación de 40,5 horas a 3 minutos. El cambio no fue de modelo. Fue de harness.

Qué hay adentro

Hay seis o siete componentes que aparecen una y otra vez cuando se diseca un harness serio.

El loop. La mayoría sigue el patrón ReAct: el modelo piensa, propone una acción (típicamente una llamada a una herramienta), el harness ejecuta esa acción, le devuelve el resultado al modelo, y el modelo decide qué hacer con eso. Repetir hasta terminar. El código en sí es sorprendentemente simple, a veces 20 líneas. Lo complicado es todo lo que está alrededor.

Las herramientas. Lectura y escritura de archivos, ejecución de comandos en una shell, búsqueda web, llamadas a APIs externas, queries a bases de datos. Cada herramienta es una superficie de ataque y una fuente de errores, así que cómo se definen y se exponen importa mucho.

La memoria. Aquí hay un problema que vale la pena nombrar: el "context rot". Cuando el contexto del modelo se llena de cosas, su capacidad de seguir instrucciones se degrada. Estudios recientes muestran caídas de más de 30% en performance cuando el contenido clave queda enterrado en el medio de una ventana de contexto larga. Por eso los harnesses serios manejan memoria en capas: lo que se carga siempre, lo que se trae por demanda, lo que vive en disco y se busca cuando hace falta.

Los permisos. Quién puede hacer qué, cuándo se pide aprobación humana, qué operaciones requieren confirmación. Claude Code tiene una regla que vale la pena adoptar como principio general: deny always wins. Si una sola regla dice "no", no importa qué tan convincente sea el argumento del modelo. Las reglas no se discuten.

Después vienen la persistencia de sesión (que el agente sobreviva crashes, reinicios y pausas de horas), la observabilidad (saber qué hizo, qué pensó y por qué) y los guardrails de seguridad. Cada uno merece su propio post.

Cuatro filosofías, cuatro harnesses

Lo más interesante de 2026 no es que haya muchos harnesses. Es que los harnesses serios están apostando por cosas radicalmente distintas.

Codex CLI (OpenAI) es el harness como núcleo reutilizable. Escrito en Rust, open source, con más de 3 millones de usuarios semanales a inicios de 2026. La obsesión técnica aquí es algo llamado el "Codex App Server": un protocolo JSON-RPC que separa el harness del cliente. ¿Resultado? Exactamente la misma lógica de agente corre detrás del CLI, de la extensión de VS Code, de la app de macOS y de la versión web. Una sola implementación, muchas superficies. Es la filosofía de "el harness como infraestructura".

Claude Code (Anthropic) es el harness como opinión fuerte sobre seguridad. Loop ReAct estricto, sistema de permisos en tres capas, memoria estructurada con archivos como CLAUDE.md para reglas del proyecto y compactación automática cuando el contexto se llena. Una particularidad clave: en modo automático, un clasificador en una instancia separada del modelo evalúa los casos ambiguos, y deliberadamente no ve la salida del agente para no ser influenciado por argumentos persuasivos. Es la filosofía de "el harness desconfía del modelo por diseño".

OpenClaw y Hermes Agent son el caso más interesante para entender qué es realmente un harness. Vistos desde afuera, parecen lo mismo: ambos son agent harnesses open-source, persistentes, accesibles desde apps de chat como Slack, Telegram o Discord. Pero están organizados alrededor de obsesiones opuestas. Brendan O'Leary lo resumió bien: "Hermes empaqueta un gateway alrededor de un agente que aprende. OpenClaw empaqueta un agente alrededor de un gateway de mensajería."

En la práctica, OpenClaw es excelente si tu problema central es coordinar conversaciones en muchos canales, gestionar sesiones largas y rutear tareas entre Claude Code, Codex u otros agentes especializados. Hermes, en cambio, está apostando por un agente que genera sus propias skills a partir de trayectorias exitosas, las refina con uso, y mejora con el tiempo sin que nadie reentrene el modelo. Dos productos que parecen primos, pero que resuelven problemas distintos.

Perplexity Computer es el harness como empleado autónomo. No es un agente que te asiste mientras trabajas; es un agente al que le das un objetivo de alto nivel ("encuentra 20 candidatos para esta vacante y arma una primera ronda de emails") y se va a ejecutar en la nube, durante horas, sin que estés mirando. Descompone la tarea en sub-tareas, las delega a sub-agentes con distintos modelos, navega webs, llena formularios y entrega resultados estructurados. Es la filosofía de "el harness como sistema que trabaja mientras duermes".

Beneficios concretos, sin marketing

Si un equipo invierte en harness, ¿qué gana?

Confiabilidad medible. La diferencia entre 60% y 95% de éxito en tareas multi-paso casi siempre vive en la calidad del harness, no en el modelo. Esto ya está documentado en benchmarks: el mismo modelo en un mejor harness supera al mismo modelo en un harness mediocre por márgenes que harían quedar pequeño cualquier upgrade de modelo.

Costos predecibles. Un harness bien diseñado controla cuánto contexto se manda, cuándo se compacta la conversación y qué herramientas se invocan. Sin eso, los costos de API explotan sin previo aviso.

Auditabilidad. Saber por qué un agente hizo lo que hizo no es lujo: es requisito legal en cada vez más industrias. Un harness con buena observabilidad guarda trazas, decisiones y resultados de cada paso. Para LATAM, este punto pesa más que en EE.UU. — la regulación sectorial (banca, salud, telecom) está pidiendo trazabilidad de decisiones algorítmicas antes de que llegue una ley general de IA en cada país.

Recuperación ante fallas. APIs caídas, modelos que devuelven JSON malformado, herramientas que se cuelgan. Un harness serio maneja todo esto sin tirar abajo la sesión completa.

La idea para llevarse

Durante 2025, la conversación giró en torno a qué modelo elegir. GPT-4 o Claude. Sonnet o Opus. Open source o propietario. Esa pregunta sigue importando, pero cada vez menos. Los modelos están convergiendo en capacidad. La diferencia entre proveedores se achica todos los meses.

Lo que no converge es la calidad del harness. Y es ahí donde, en 2026, se está jugando la diferencia entre un demo simpático y un producto que aguanta.

Si estás pensando en construir algo con IA este año, la pregunta inicial no debería ser "qué modelo uso". Debería ser: qué tiene que ejecutar este agente, qué herramientas necesita, cómo manejo permisos, qué pasa cuando algo falla, cómo lo observo en producción. Si tienes respuestas a esas preguntas, el modelo es casi un detalle. Si no las tienes, ningún modelo te va a salvar.

El modelo es la parte fácil. El harness es donde está el trabajo.

🔗 Wrap-up de la semana

Tres movidas que vale tener en el radar antes del fin de semana, todas con consecuencias prácticas para equipos LATAM:

Trump pausó a último momento su Executive Order de IA. El jueves 21 la Casa Blanca postergó la firma del decreto que exigía review voluntario de modelos frontera 90 días antes de release público — agencias federales (incluida NSA) iban a testear capacidades peligrosas. Las invitaciones ya estaban enviadas. Trump dijo que "no le gustaron ciertos aspectos" y que la regla "se interpone" en el liderazgo frente a China. Lectura corta: el vacío regulatorio en EE.UU. lo siguen llenando la UE (AI Act simplificado, ver newsletter del 19) y California (SB 53 con disclosure obligatorio). Si vendes a multinacionales, el piso real sigue siendo la costa oeste. Axios · Washington Post

OpenAI presenta hoy S-1 confidencial ante la SEC con Goldman y Morgan Stanley (JPMorgan también en el deal). Target: listing en Nasdaq septiembre 2026 a valuación arriba de US$1 billón (trillón anglosajón). Vienen de un Q2 proyectado en US$10.9B de revenue y el primer trimestre operativamente rentable del sector. Sumado al S-1 público de SpaceX (ticker SPCX, 20 de mayo), la ventana de "AI lab como empresa privada" se está cerrando rápido. Para founders LATAM levantando con narrativa de IA: el comparable público va a dejar de ser estimaciones de Bloomberg y va a ser un múltiplo concreto que los inversores te van a pedir cumplir. CNBC · Bloomberg

Anthropic en charlas con Microsoft por chips Maia 200 (vía The Information). Tercer proveedor de compute en seis semanas: en abril cerraron con AWS por Trainium a 10 años (US$100B); en mayo con xAI por Colossus 1 (220.000 GPUs Nvidia) a US$1.25B/mes hasta 2029 (~US$15B/año); ahora suman a Microsoft. No es bandera de neutralidad — es deuda soberana: ningún proveedor único, todos atados por contratos largos pero terminables con 90 días de aviso. Para quienes construyen sobre Claude API: la capacidad va a seguir creciendo, pero los precios de Pro y Max difícilmente bajen — esa expansión la están pagando con contratos billonarios. Bloomberg · TechCrunch

bitneuronal se escribe desde LATAM, para equipos que construyen con IA de verdad. Buen fin de semana — y si llegaste hasta aquí, gracias por leer.

Si te lo reenviaron y quieres recibirlo cada día, suscríbete. Si ya estás suscrito, compártelo con alguien que esté pensando en construir algo agentic este trimestre.

Hasta el lunes.

Keep Reading