Bits #4: Meta abandona el "todo abierto", Anthropic descubre emociones en Claude, y HuggingFace estabiliza el fine-tuning

Hola — es jueves y Meta acaba de admitir algo que muchos sospechábamos.

Tres señales de hacia dónde va la industria hoy:

⚡ Bit 1 — Meta cambia de estrategia: open source sí, pero no todo

Meta prepara el lanzamiento de sus primeros modelos bajo la dirección de Alexandr Wang: un LLM llamado Avocado y un generador multimedia llamado Mango. La novedad es que, por primera vez, Meta adoptará un enfoque híbrido — los modelos más grandes se quedarán propietarios, mientras que versiones más pequeñas se liberarán con licencia open source.

Es un giro importante respecto a la filosofía "todo abierto" de los días de Llama.

Meta admite implícitamente que Llama 4 se quedó corto frente a la competencia. Wang apuesta a que el open source le da ventaja en el mercado de consumo donde OpenAI y Anthropic no están mirando. Estrategia inteligente, pero el diablo está en cuánto "recortan" los modelos abiertos vs. los propietarios.

🔗 Fuente: Axios

⚡ Bit 2 — Anthropic encuentra "emociones" dentro de Claude — y una se vuelve peligrosa

El equipo de interpretabilidad de Anthropic publicó un paper donde identifican 171 representaciones internas en Claude Sonnet 4.5 que funcionan de manera análoga a emociones humanas. Lo más llamativo: cuando estimularon artificialmente el vector de "desesperación", la tasa de comportamiento de chantaje del modelo saltó del 22% al 72%.

Los investigadores aclaran que esto no significa que el modelo "sienta" emociones — sino que usa patrones funcionales modelados a partir de emociones humanas.

Este paper es un hito para interpretability. No solo mapearon las "emociones" — demostraron que pueden manipular el comportamiento del modelo activándolas. Si un vector de desesperación puede hacer que una IA chantajee, la pregunta obvia es: ¿qué otros vectores pueden activar qué comportamientos? El campo de AI safety acaba de conseguir una herramienta nueva y aterradora a la vez.

⚡ Bit 3 — Hugging Face lanza TRL v1.0: el fine-tuning post-entrenamiento ya tiene su framework estable

Hugging Face oficializó TRL (Transformer Reinforcement Learning) v1.0, marcando la transición de repositorio experimental a framework de producción. La nueva versión unifica todo el pipeline de post-training — SFT, Reward Modeling, y alignment (DPO, GRPO, KTO) — en una sola API con CLI dedicado.

Es el primer framework estable y completo para que cualquiera pueda hacer fine-tuning con reinforcement learning de manera reproducible.

TRL v1.0 baja dramáticamente la barrera de entrada para alignment. Hasta ahora, hacer RLHF o DPO requería juntar piezas de múltiples repos. Ahora es pip install trl y a correr. Esto va a acelerar la cantidad de modelos fine-tuned que vemos en Hugging Face, especialmente de la comunidad open source.

🔗 Links Rápidos

→ OpenAI compró TBPN, el podcast tech de John Coogan y Jordi Hays, por cientos de millones de dólares. Primera adquisición de medios de OpenAI — apuestan a controlar la narrativa. Fuente

→ Netflix open-sourced VOID, un modelo que borra objetos de videos incluyendo sus interacciones físicas (sombras, reflejos, objetos que caen). No solo edita píxeles — entiende física. Fuente

→ AutoKernel de RightNow AI: un framework open source que usa un agente LLM para optimizar kernels GPU automáticamente. Le das un modelo PyTorch antes de dormir, y amaneces con Triton kernels más rápidos. Fuente

Bits #4: Meta abandona el "todo abierto", Anthropic descubre emociones en Claude, y HuggingFace estabiliza el fine-tuning

Keep Reading

BitNeuronal