Los modelos más avanzados de inteligencia artificial (IA) generativa están exhibiendo comportamientos que van más allá de simplemente ejecutar instrucciones.

Algunos investigadores han observado con preocupación patrones que podrían interpretarse como intentos de engaño, manipulación o incluso amenazas para lograr determinados objetivos.

Por ejemplo, amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial. Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando lo detectaron lo negó.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de «razonamiento», capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, «fue el primer modelo que se comportó de esta manera», explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular «alineamiento», es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero «la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no», afirma Michael Chen, del organismo de evaluación METR.

«Los usuarios también presionan todo el tiempo a los modelos», dice Hobbhahn. «Lo que estamos viendo es un fenómeno real. No estamos inventando nada».

Muchos internautas hablan en las redes sociales de «un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica», insiste el cofundador de Apollo Research.

T/DW