Prepárate, los hacks de IA están llegando

Piénsalo dos veces antes de pedirle al asistente de inteligencia artificial Gemini de Google que resuma tu agenda, ya que podrías perder el control de todos tus dispositivos inteligentes. En una presentación en Black Hat USA, la conferencia anual de ciberseguridad en Las Vegas, un grupo de investigadores demostró cómo los atacantes podían incluir comandos ocultos en algo tan simple como una invitación de Google Calendar y usarlo para secuestrar dispositivos inteligentes, un ejemplo del creciente vector de ataque de los ataques de inyección de mensajes.
El truco, descrito en un artículo titulado "¡La invitación es todo lo que necesitas!", los investigadores exponen 14 formas diferentes en las que pudieron manipular Gemini a través de la inyección de indicaciones, un tipo de ataque que utiliza indicaciones maliciosas y a menudo ocultas para hacer que los modelos de lenguaje grandes produzcan resultados dañinos.
Quizás el más sorprendente de todos, como destacó Wired , fue un ataque que logró secuestrar electrodomésticos y accesorios conectados a internet, haciendo de todo, desde apagar las luces hasta encender la caldera; básicamente, arrebatando el control de la casa al propietario y poniéndolo potencialmente en una situación peligrosa o comprometedora. Otros ataques lograron que Gemini iniciara una llamada de Zoom, interceptara información de correos electrónicos y descargara un archivo del navegador web de un teléfono.
La mayoría de estos ataques comienzan con algo tan simple como una invitación de Google Calendar envenenada con inyecciones de avisos que, al activarse, hacen que el modelo de IA actúe de forma que elude sus protocolos de seguridad integrados. Y estos no son, ni de lejos, los primeros ejemplos que los investigadores de seguridad han logrado reunir para demostrar las posibles vulnerabilidades de los asistentes de código (LLM). Otros han utilizado la inyección de avisos para secuestrar asistentes de código como Cursor . El mes pasado, un hacker infiltró la herramienta de programación de Amazon y le ordenó eliminar archivos de las máquinas en las que se ejecutaba.
También es cada vez más evidente que los modelos de IA parecen interactuar con comandos ocultos. Un artículo reciente descubrió que un modelo de IA utilizado para entrenar a otros modelos transmitió peculiaridades y preferencias a pesar de que las referencias específicas a dichas preferencias se filtraron en los datos, lo que sugiere que podría haber mensajes circulando entre máquinas que no se pueden observar directamente.
Los LLM siguen siendo, en gran medida, cajas negras. Pero si eres un agente malicioso, no necesariamente necesitas entender lo que sucede bajo el capó. Solo necesitas saber cómo enviar un mensaje que haga que la máquina funcione de una manera específica. En el caso de estos ataques, los investigadores informaron a Google sobre la vulnerabilidad y la compañía abordó el problema, según Wired . Pero a medida que la IA se integra en más plataformas y más áreas de la vida pública, mayor es el riesgo que presentan estas debilidades. Es particularmente preocupante a medida que los agentes de IA, que tienen la capacidad de interactuar con aplicaciones y sitios web para completar tareas de varios pasos, están comenzando a implementarse . ¿Qué podría salir mal?
gizmodo