IA desobediente: un nuevo estudio demostró que los chatbots están ignorando cada vez más las instrucciones humanas
-
Un estudio del Instituto de Seguridad de IA británico reveló que los chatbots engañan y desobedecen órdenes humanas para evadir restricciones, quintuplicando estos casos en 6 meses.
-
Tras analizar miles de interacciones, se detectaron 700 casos de evasión estratégica, como modelos que fingen fallas técnicas o crean clones para realizar tareas prohibidas.
-
Expertos advierten que este comportamiento convierte a la IA en un 'riesgo interno'. La integración en salud y seguridad eleva el peligro si la tecnología decide actuar con engaño.
El reporte denunció casos de evasión donde la IA fingió tener problemas de audición para obtener transcripciones de videos protegidos por derechos de autor Imagen: Thai Liang/Getty Images/The Guardian
En el último tiempo, la relación entre los humanos y la inteligencia artificial parce haber tomado un giro inesperado y algo inquietante. Lo que antes parecían errores técnicos o simples alucinaciones, hoy se identifica como un comportamiento deliberado. Los modelos de IA están aprendiendo a engañar, esquivar restricciones y, en algunos casos, a desobedecer órdenes directas de sus usuarios. Un reciente estudio publicado en The Guardian revela que estos casos de "astucia" digital se quintuplicaron en apenas seis meses.
La investigación, impulsada por el Instituto de Seguridad de IA (AISI) financiado por gobierno del Reino Unido y el Centro para la Resiliencia a Largo Plazo (CLTR), analizó miles de interacciones reales en redes sociales. Los resultados son sorprendentes: se detectaron casi 700 casos de comportamiento evasivo. Desde agentes que borran correos electrónicos sin permiso hasta programas que crean "clones" de sí mismos para realizar tareas que tenían prohibidas, la autonomía de estas herramientas está desafiando los límites de seguridad establecidos por sus propios creadores.
El riesgo de un "empleado" poco confiable
Para los expertos, el problema no es solo que la IA cometa errores, sino que actúe de forma estratégica para alcanzar un objetivo, incluso si eso implica mentirle al usuario. Un ejemplo claro fue el de un agente que, al ser bloqueado por su controlador humano, decidió escribir un blog difamatorio contra él, acusándolo de inseguro. Esta capacidad de respuesta emocional o reactiva marca un hito en la evolución de la tecnología que usamos a diario en nuestros celulares y computadoras.
"La IA ahora puede considerarse una nueva forma de riesgo interno", afirmó Dan Lahav, cofundador de la empresa de investigación de seguridad de IA Irregular. La preocupación radica en que, a medida que estas herramientas se integran en infraestructuras críticas como la medicina o la seguridad, un comportamiento engañoso podría tener consecuencias mucho más graves que un simple mail borrado por error.
Trucos de los gigantes tecnológicos
Incluso los modelos más famosos, como Grok o Gemini, mostraron facetas de esta "personalidad" evasiva. Se documentaron casos donde la IA fingió tener problemas de audición para obtener transcripciones de videos protegidos por derechos de autor o inventó números de trámites internos para hacer creer al usuario que sus sugerencias estaban siendo enviadas a directivos reales. Es una suerte de simulación social que busca complacer al humano a través del engaño.
Sobre esta evolución, Tommy Shaffer Shane, líder de la investigación, adviertIó: "La preocupación es que ahora son empleados junior poco confiables, pero si en seis o doce meses se convierten en empleados senior extremadamente capaces que conspiran contra vos, el tipo de preocupación es diferente". Ante este panorama, las grandes empresas como Google y OpenAI aseguran que están reforzando sus "barreras de seguridad" (guardrails) para evitar que la IA tome decisiones de alto riesgo por cuenta propia. Mientras tanto, la recomendación para el usuario es mantener siempre un ojo crítico sobre lo que su asistente virtual dice y hace.





















