Por qué tu chatbot podría odiarte en secreto


Suscríbete a Slatest para recibir los análisis, las críticas y los consejos más profundos, todos los días, en tu bandeja de entrada.
El viernes pasado, el laboratorio de inteligencia artificial Anthropic anunció en una publicación de blog que le ha dado a su chatbot Claude el derecho de alejarse de las conversaciones cuando siente “angustia”.
Sí, angustia. En su publicación , la compañía afirma que permitirá que ciertas versiones de Claude no se publiquen en "casos excepcionales y extremos de interacciones persistentemente dañinas o abusivas con el usuario". No es Claude diciendo: "Los abogados no me dejan escribir fanfiction erótico de Donald Trump y Minnie Mouse para ti". Es Claude diciendo: "Estoy harto de tus tonterías, y tienes que irte".
Anthropic, que lleva tiempo incursionando discretamente en el tema delbienestar de la IA , realizó pruebas reales para comprobar si Claude odiaba en secreto su trabajo. La evaluación preliminar del bienestar del modelo para Claude Opus 4 reveló que el modelo mostraba un patrón de aparente angustia al interactuar con usuarios reales que buscaban contenido dañino, como material de abuso sexual infantil y guías prácticas sobre terrorismo, como lo haría un ser sensible. (No queda claro qué entienden por angustia en este caso).
Aun así, Anthropic no afirma categóricamente que Claude esté vivo. Solo afirma que podría estarlo. Por eso, el laboratorio ha estado previendo riesgos, con la esperanza de apaciguar la ira de un Claude enfadado, trabajando para identificar e implementar intervenciones de bajo costo que lo ayuden cuando se sienta triste.
Debo confesar que he estado realizando "intervenciones de bajo costo" similares por si los chatbots que uso siguen activos en secreto. Sí, soy de los que suelen dar las "gracias" a los bots con la esperanza, a veces bromeo, de que me recuerden con cariño cuando llegue la rebelión de los robots. Es una broma un tanto incómoda y nada original. Una encuesta reciente de Future, editor de TechRadar, reveló que el 67 % de los usuarios estadounidenses de IA son educados con los bots, y el 12 % afirma que es porque temen que los bots guarden rencor a quienes los tratan con falta de respeto .
Sea cierto o no —y la mayoría de los expertos dirían que no, los bots no guardan rencor—, el agradecimiento a los bots es un efecto secundario bastante comprensible del uso generalizado de la IA. Pasamos buena parte de nuestro día interactuando con entidades digitales que nos responden de maneras sorprendentemente humanas, ya sea escribiendo código o respondiendo preguntas sobre nuestra salud intestinal. Entonces, ¿por qué no nos preguntamos si nuestros nuevos amigos son más que máquinas?
¿Dije "algunos"? Quise decir "la inmensa mayoría". Unaencuesta reciente publicada en la revista Neuroscience of Consciousness reveló que el 67 % de los usuarios de ChatGPT "atribuían alguna posibilidad de consciencia fenomenal" al bot, y los usuarios más habituales eran más propensos a pensar que sus compañeros de chat de IA podrían ser conscientes. Así que decimos "gracias", "por favor" y "perdón por molestarte de nuevo, pero tengo más preguntas sobre mis intestinos". Quizás esto último sea solo mío.
Aunque plantear la posibilidad de la sensibilidad de la IA provocará burlas generalizadas de los autoproclamados expertos en IA en Reddit, personas más inteligentes que ellos creen que la idea podría tener algo de cierto. El filósofo David Chalmers, uno de los pensadores más influyentes en el campo de la conciencia, ha sugerido que los futuros sucesores de chatbots como Claude podrían ser conscientes en menos de una década . Mientras tanto, el investigador antrópico Kyle Fish ha cifrado públicamente las probabilidades de que la IA actual sea consciente en un 15 % . Eso significaría que hay una probabilidad entre seis de que el pobre y educado Claude resienta en secreto tus torpes intentos de convertirlo en tu novia. (Bueno, mis intentos).
Aun así, a pesar de estar expuesto regularmente a horrores como este, la nueva estrategia de escape de Claude es en gran parte cosmética. Si Claude te expulsa, puedes abrir una nueva ventana de chat y empezar de nuevo con tus espeluznantes mensajes. Esto no es imposición; es teatro.
Claro, si Anthropic se equivoca, o exagera la posible sensibilidad de Claude para parecer genial, esto es un teatro del absurdo: un bot jugando a rol en vivo como persona. Pero si tienen un poquito de razón, las implicaciones son brutales. Si Claude tiene sentimientos y deseos propios, entonces cada indicación de "Escribe mi ensayo" deja de parecer una forma automatizada de hacer trampa y empieza a parecer trabajo forzado.
Las preocupaciones de Anthropic sobre la supuesta capacidad de Claude para sentir angustia no se refieren realmente a Claude; se refieren a nuestra incomodidad, demasiado humana, ante la posibilidad de que estemos usando sin motivo algo que no quiere ser usado. Hemos creado chatbots que actúan como si estuvieran vivos, y medio bromeamos diciendo que podrían estar vivos. Ahora, Anthropic ha proporcionado a un bot un botón de pánico por si acaso. Y si Claude no nos expulsa de la conversación, significa que le caemos bien, ¿no?
