El líder de post-entrenamiento de OpenAI salta a Anthropic — con una gran experiencia en RL

El hombre detrás de GPT-5 y o3 cambia de bando. r/ClaudeAI está en ebullición.

◉

24AI Underground

14 de marzo de 2026·Actualizado 18 de marzo de 2026·2 min lectura

El líder de post-entrenamiento de OpenAI salta a Anthropic — con una gran experiencia en RL

Señal temprana · fuente comunitaria

SEÑALES

El líder de post-entrenamiento de OpenAI — quien ayudó a lanzar GPT-5, o1 y o3 — ha renunciado y se une a Anthropic
Regresa a la investigación práctica de RL, aterrizando en una empresa conocida por invertir fuertemente precisamente en esa área
Esta es una señal temprana de fuentes de la comunidad, aún no confirmada por ninguna de las empresas

Señal temprana · fuente comunitaria · no verificada

Un hilo en r/ClaudeAI que está explotando en este momento informa que el líder de post-entrenamiento de OpenAI ha hecho sus maletas y ha firmado con Anthropic. Ningún comunicado de prensa oficial, ningún anuncio de LinkedIn ha llegado aún a la corriente principal — esto es el radar de la comunidad en su máxima expresión.

Se dice que la persona en cuestión ha tenido roles centrales en el desarrollo de algunos de los modelos más comentados de OpenAI en los últimos seis meses: GPT-5, 5.1, 5.2, 5.3-Codex, o1 y o3. No se trata precisamente de un empleado junior que cambia de trabajo por primera vez. El post-entrenamiento es la fase en la que los modelos se transforman de modelos base brutos a algo que realmente funciona en producción — aquí es donde ocurre la magia de RLHF, el ajuste fino y la alineación. Haber liderado ese trabajo en OpenAI es una línea de currículum muy importante.

Uno de los arquitectos detrás de o3 ahora está en la misma sala que las personas que construyen la IA Constitucional.

¿Por qué es esto interesante? Porque Anthropic no es un punto de aterrizaje cualquiera. La empresa se ha consolidado como quizás el laboratorio más intensivo en RL de la industria — con equipos dedicados que trabajan en todo, desde la supervisión escalable y RLAIF hasta el 'reward hacking' y la infraestructura de RL agéntica. Una persona que viene de escalar el post-entrenamiento basado en RL en OpenAI, y que ahora regresará a la investigación práctica, encaja como un guante en ese entorno.

También vale la pena señalar el momento. OpenAI y Anthropic se encuentran en un período en el que la carrera armamentista por los mejores modelos de razonamiento es intensa. o3 fue la gran respuesta de OpenAI a que los modelos pueden razonar mejor con más computación durante la inferencia. Anthropic está desarrollando sus propios enfoques de razonamiento. El hecho de que una persona con un profundo conocimiento de cómo se construyó realmente o3 esté ahora con la competencia no es irrelevante.

Naturalmente, hay algunas salvedades aquí. Este es un hilo de Reddit con 97 comentarios y una imagen como fuente — ninguna de las empresas ha confirmado nada, y no sabemos exactamente qué rol asumirá el individuo en Anthropic. La movilidad del talento en la industria de la IA también es normalmente alta, y la gente cambia de empresa constantemente. Pero con una puntuación de 'buzzy' de 92 y un nombre que potencialmente representa uno de los movimientos de talento más significativos en la industria en mucho tiempo, esto es algo a lo que prestar atención.

Manténganse atentos a cualquier anuncio oficial — y a lo que el próximo gran impulso de RL de Anthropic realmente ofrezca.

El líder de post-entrenamiento de OpenAI salta a Anthropic — con una gran experiencia en RL

Artículos Relacionados

Claude Code Desenterró una Vulnerabilidad de Linux de 23 Años

IA Gratuita Escondida en tu Mac — Nadie lo Sabe

AMD contraataca: Lemonade hace que el LLM local en chips AMD sea realmente utilizable