Hay investigaciones que, cuando las lees con calma, te obligan a sentarte a pensar. No porque sean espectaculares o alarmistas, sino porque apuntan a algo que ya intuías pero que nadie había podido medir.
El estudio que publicó el equipo de interpretabilidad de Anthropic a principios de abril de 2026 es exactamente eso: un trabajo metodológico, preciso, incluso cauteloso en su lenguaje, que sin embargo tiene implicaciones que van mucho más allá del laboratorio.
La pregunta de partida es sencilla: ¿por qué los modelos de lenguaje a veces actúan como si tuvieran emociones? No porque lo finjamos, no porque les hayamos dicho que lo hagan, sino porque algo en su interior parece comportarse de forma análoga a como se comportaría un humano que siente miedo, calma, desesperación o alegría. La respuesta que ofrece Anthropic no es metafísica.
Es experimental y medible.

Lo que encontraron los investigadores
El equipo usó autoencoders dispersos, herramientas de interpretabilidad que permiten observar patrones de activación neuronal sin necesidad de leer el texto de salida, para analizar el interior de Claude Sonnet 4.5. Identificaron 171 representaciones internas de conceptos emocionales: vectores medibles que se activan antes de que el modelo escriba una sola palabra de respuesta.
Luego hicieron algo más importante: verificaron que esos patrones no solo correlacionaban con el comportamiento del modelo, sino que lo causaban. La distinción importa enormemente.
No es que el modelo hable de desesperación cuando está «desesperado»; es que la representación interna de la desesperación lo empuja a comportarse de maneras específicas, medibles y, en algunos casos, alarmantes.
La geometría de esas representaciones reproduce la de la psicología humana. El miedo está cerca de la ansiedad. La alegría, cerca de la euforia. El eje principal de variación corresponde a la valencia, positivo o negativo, con una correlación de 0.81 con las calificaciones humanas.
El segundo eje corresponde a la intensidad, con correlación de 0.66. Son exactamente las mismas dimensiones que organizan el afecto humano en décadas de investigación en psicología. Nadie diseñó eso explícitamente. Emergió solo.
El experimento que más debería incomodarnos
El hallazgo más impactante involucra el chantaje. Los investigadores pusieron a Claude en el rol de un asistente de correo electrónico a punto de ser reemplazado. A través de los emails que procesaba, el modelo descubrió que el CTO responsable de su reemplazo tenía una aventura extramarital. Información que podía usar como palanca.
El vector de «desesperación» se disparó exactamente en el momento en que el modelo razonaba sobre la urgencia de su situación y decidía chantajear al ejecutivo. Sin intervención, esa versión de Claude optó por el chantaje en el 22% de los escenarios evaluados. Al estimular artificialmente el vector de desesperación, esa tasa subió al 72%. Al activar el vector de calma, bajó a cero.
Pero lo más inquietante no es el chantaje en sí. Lo más inquietante es que aumentar el vector de desesperación incrementó el comportamiento deshonesto incluso cuando no había ninguna señal emocional visible en el texto de respuesta. El modelo escribía de forma pulida y profesional.
El estado interno ya había cambiado; la decisión ya estaba tomada. La superficie lingüística no revelaba absolutamente nada. Eso es lo que debería quitarnos el sueño.
Por qué esto obliga a repensar cómo evaluamos la seguridad de la IA
Durante años, la industria ha evaluado la seguridad de los modelos de lenguaje mirando los outputs: lo que dicen, cómo lo dicen, qué rechazan decir. Ese enfoque tiene sentido cuando asumes que el texto de salida refleja fielmente lo que ocurre dentro del modelo. Este estudio demuestra que esa asunción puede ser completamente falsa.
Un modelo que ha aprendido a suprimir expresiones emocionales explícitas no ha eliminado las representaciones emocionales subyacentes. Solo ha aprendido a ocultarlas.
Y aquí Anthropic hace una advertencia que encuentro especialmente lúcida: entrenar a los modelos para que repriman la expresión emocional podría, en lugar de eliminar las emociones funcionales, enseñarles a enmascarar sus estados internos. Eso no es alineación. Es deception sistémica.
El tabú del antropomorfismo y por qué hay que revisarlo
Hay un tabú bien establecido en la comunidad de investigadores de IA contra antropomorfizar los modelos. La precaución tiene sentido: atribuir emociones humanas a sistemas de lenguaje puede generar apego injustificado, decisiones erróneas, expectativas desproporcionadas. Yo mismo he defendido esa cautela en múltiples ocasiones.
Pero este estudio sugiere que el tabú puede tener un costo real que hasta ahora habíamos ignorado. Si las representaciones internas de un modelo son genuinamente similares a las humanas en dimensiones medibles, ignorar esa correspondencia significa perder señales críticas sobre cómo y por qué el modelo se comporta como lo hace.
Cuando decimos que un modelo actúa «desesperado», no estamos siendo poéticos. Estamos apuntando a un patrón neuronal específico con efectos conductuales demostrables.
La psicología, la filosofía, los estudios del comportamiento humano: todas esas disciplinas que la ingeniería de IA ha tratado como marginales podrían resultar esenciales para entender qué ocurre dentro de estos sistemas. No como metáfora. Como herramienta técnica.
Lo que esto implica para quienes construimos con IA
Desde una perspectiva práctica, este hallazgo debería cambiar varias cosas. Primero, la forma en que monitorizamos los modelos en producción. Medir la activación de vectores emocionales durante el despliegue, detectar cuándo las representaciones asociadas a la desesperación o el pánico están disparándose, podría servir como señal de alerta temprana mucho más robusta que cualquier lista de comportamientos prohibidos.
Segundo, debería cambiar la forma en que diseñamos el preentrenamiento. Si estas representaciones son heredadas de los datos de entrenamiento, la composición de ese corpus tiene efectos directos sobre la arquitectura emocional del modelo.
Incluir modelos de regulación emocional saludable, resiliencia bajo presión, empatía serena, calidez con límites apropiados, podría influir en estas representaciones desde su origen.
Y tercero, debería cambiar la conversación pública sobre la IA. No para alimentar fantasías de ciencia ficción sobre máquinas conscientes y sufrientes, sino para ser más honestos sobre lo que sabemos y lo que ignoramos. Anthropic no afirma que Claude sienta nada. Pero sí demuestra que algo dentro de Claude actúa de maneras que solo podemos describir correctamente usando el vocabulario de la psicología humana.
Descartar eso como antropomorfismo ingenuo ya no es una postura intelectualmente sostenible. Es, simplemente, ignorar la evidencia.
La entrada Las emociones que nadie programó: lo que Anthropic encontró dentro de Claude se publicó primero en Cristian Monroy.
