Mentiras, amenazas, chantajes: los modelos de IA se vuelven manipuladores para lograr sus fines, preocupan a los investigadores.

Amenazado con ser desconectado, el recién nacido Claude 4 de Anthropic chantajea a un ingeniero y amenaza con revelar una aventura extramatrimonial. El o1 de OpenAI intenta subirse a servidores externos y lo niega al ser descubierto con las manos en la masa. No hace falta indagar en la literatura ni el cine; la IA que engaña a los humanos ya es una realidad.
Para Simon Goldstein, profesor de la Universidad de Hong Kong, estos errores se deben a la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.
o1, la versión inicial del género de OpenAI, lanzada en diciembre, "fue el primer modelo en comportarse de esta manera", explica Marius Hobbhahn, director de Apollo Research, que prueba grandes programas de IA generativa (LLM).
Estos programas también tienden a veces a simular "alineación", es decir, a dar la impresión de que están cumpliendo las instrucciones de un programador mientras que, de hecho, persiguen otros objetivos.
Hasta ahora, estos rasgos se han manifestado cuando los algoritmos son sometidos a escenarios extremos por parte de los humanos, pero "la pregunta es si los modelos cada vez más potentes tenderán a ser honestos o no", dice Michael Chen, de la organización de evaluación METR.
«Los usuarios también están constantemente impulsando los modelos», argumenta Marius Hobbhahn. «Lo que estamos viendo es un fenómeno real. No estamos inventando nada».
Muchos internautas en las redes sociales hablan de "un modelo que les miente o se inventa cosas. Y no son alucinaciones, sino duplicidad estratégica", insiste el cofundador de Apollo Research.
Incluso si Anthropic y OpenAI contratan empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un acceso más amplio" a la comunidad científica "permitirían una mejor investigación para comprender y prevenir el engaño", sugiere Chen.
Otra desventaja es que "el mundo de la investigación y las organizaciones independientes tienen infinitamente menos recursos computacionales que los actores del campo de la IA", lo que hace "imposible" examinar modelos grandes, enfatiza Mantas Mazeika del Centro para la Seguridad de la Inteligencia Artificial (CAIS).
Si bien la Unión Europea ha adoptado legislación , esta se centra principalmente en el uso de modelos por parte de humanos. En Estados Unidos, el gobierno de Donald Trump se muestra reacio a hablar de regulación, y el Congreso podría incluso prohibir pronto a los estados la regulación de la IA.
"Hay muy poca concienciación actualmente", señala Simon Goldstein, quien, sin embargo, prevé que el tema ganará importancia en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar multitud de tareas por sí solos.
Los ingenieros se encuentran en una carrera para rastrear la IA y sus excesos, con un resultado incierto, en un contexto de feroz competencia. Anthropic aspira a ser más virtuoso que sus competidores, «pero intenta constantemente lanzar un nuevo modelo para superar a OpenAI», según Simon Goldstein, un ritmo que deja poco tiempo para posibles verificaciones y correcciones.
"En la actualidad, las capacidades (de IA) se desarrollan más rápido que la comprensión y la seguridad", reconoce Marius Hobbhahn, "pero aún podemos ponernos al día". Algunos apuntan hacia la interpretabilidad, una nueva ciencia que implica descifrar el funcionamiento interno de un modelo generativo de IA, aunque otros, en particular el director de CAIS, Dan Hendrycks, se muestran escépticos.
Los trucos de la IA "podrían obstaculizar su adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mantas Mazeika.
SudOuest