Un hilo en r/ClaudeAI que está explotando en este momento informa que el líder de post-entrenamiento de OpenAI ha hecho sus maletas y ha firmado con Anthropic. Ningún comunicado de prensa oficial, ningún anuncio de LinkedIn ha llegado aún a la corriente principal — esto es el radar de la comunidad en su máxima expresión.
Se dice que la persona en cuestión ha tenido roles centrales en el desarrollo de algunos de los modelos más comentados de OpenAI en los últimos seis meses: GPT-5, 5.1, 5.2, 5.3-Codex, o1 y o3. No se trata precisamente de un empleado junior que cambia de trabajo por primera vez. El post-entrenamiento es la fase en la que los modelos se transforman de modelos base brutos a algo que realmente funciona en producción — aquí es donde ocurre la magia de RLHF, el ajuste fino y la alineación. Haber liderado ese trabajo en OpenAI es una línea de currículum muy importante.
¿Por qué es esto interesante? Porque Anthropic no es un punto de aterrizaje cualquiera. La empresa se ha consolidado como quizás el laboratorio más intensivo en RL de la industria — con equipos dedicados que trabajan en todo, desde la supervisión escalable y RLAIF hasta el 'reward hacking' y la infraestructura de RL agéntica. Una persona que viene de escalar el post-entrenamiento basado en RL en OpenAI, y que ahora regresará a la investigación práctica, encaja como un guante en ese entorno.
También vale la pena señalar el momento. OpenAI y Anthropic se encuentran en un período en el que la carrera armamentista por los mejores modelos de razonamiento es intensa. o3 fue la gran respuesta de OpenAI a que los modelos pueden razonar mejor con más computación durante la inferencia. Anthropic está desarrollando sus propios enfoques de razonamiento. El hecho de que una persona con un profundo conocimiento de cómo se construyó realmente o3 esté ahora con la competencia no es irrelevante.
Naturalmente, hay algunas salvedades aquí. Este es un hilo de Reddit con 97 comentarios y una imagen como fuente — ninguna de las empresas ha confirmado nada, y no sabemos exactamente qué rol asumirá el individuo en Anthropic. La movilidad del talento en la industria de la IA también es normalmente alta, y la gente cambia de empresa constantemente. Pero con una puntuación de 'buzzy' de 92 y un nombre que potencialmente representa uno de los movimientos de talento más significativos en la industria en mucho tiempo, esto es algo a lo que prestar atención.
Manténganse atentos a cualquier anuncio oficial — y a lo que el próximo gran impulso de RL de Anthropic realmente ofrezca.
