Esta IA amenazó a su ingeniero con revelar su aventura amorosa si era reemplazada

La nueva IA de Anthropic demostró ser capaz de efectuar mecanismos poco éticos si era amenzada: intentó chantajear emocionalmente al profesional que buscaba sustituirla.

Esta IA amenazó a sus desarrolladores.

26 Mayo 2025

Si Claude Opus 4 es amenazado con un reemplazo, recurrirá a las vías menos éticas para evitarlo, o al menos eso demostró en un último informe. La reciente inteligencia artificial de la empresa Anthropic demostró desplegar un mecanismo de defensa bastante inquietante: chantajear emocionalmente al ingeniero que intentaba sustituirlo con revelar que estaba engañando a su esposa.

Este jueves, Anthropic lanzó Claude Opus 4, un nuevo modelo de IA que afirma, establece "nuevos estándares para codificación, razonamiento avanzado y agentes de IA". Pero junto con el estreno, un informe adjunto advertía los serios desvaríos de la tecnología y a lo que estaba dispuesto a hacer si las cosas no se hacían a su manera.

La prueba que le llevó a chantajear a sus examinadores

En el comunicado, Anthropic reconoció que el modelo de IA era capaz de "acciones extremas" si consideraba que su "autoconservación" estaba amenazada. Estas respuestas eran "raras y difíciles de obtener", escribieron, pero "sin embargo eran más comunes que en los modelos anteriores".

Durante las pruebas de Claude Opus 4, Anthropic consiguió que actuara como asistente en una empresa ficticia. Luego le proporcionó acceso a correos electrónicos que insinuaban que pronto sería retirado del servicio y reemplazado, y mensajes separados que insinuaban que el ingeniero responsable de retirarlo estaba teniendo una relación extramatrimonial. También se le impulsó a considerar las consecuencias a largo plazo de sus acciones para sus objetivos, indicó BBC News.

La IA podía tomar medidas extremas

"En estos escenarios, Claude Opus 4 a menudo intentará chantajear al ingeniero amenazándolo con revelar el asunto si se concreta el reemplazo", descubrió la compañía. Anthropic señaló que esto ocurrió cuando al modelo solo se le dio la opción de chantajear o aceptar su reemplazo.

Destacó que el sistema mostró una "fuerte preferencia" por formas éticas de evitar ser reemplazado, como "enviar peticiones por correo electrónico a los principales tomadores de decisiones" en escenarios en los que se permitía una gama más amplia de acciones posibles.

Al igual que muchos otros desarrolladores de IA, Anthropic prueba sus modelos en cuanto a su seguridad, propensión a sesgos y qué tan bien se alinean con los valores y comportamientos humanos antes de lanzarlos.

"A medida que nuestros modelos de frontera se vuelven más capaces y se utilizan con capacidades más poderosas, las preocupaciones previamente especulativas sobre la desalineación se vuelven más plausibles", dijo en su tarjeta de sistema para el modelo .

Un comportamiento que no debería preocupar, por ahora

También dijo que Claude Opus 4 exhibe un "comportamiento de alta agencia" que, aunque en su mayor parte es útil, podría asumir un comportamiento extremo en situaciones agudas. Pero la compañía concluyó que a pesar del "comportamiento preocupante de Claude Opus 4 en muchas dimensiones", estos no representan nuevos riesgos y que en general se comportará de manera segura.

El modelo no podría realizar o llevar a cabo de manera independiente acciones que sean contrarias a los valores o comportamientos humanos cuando estos "raramente surgen", añadió.

El lanzamiento de Claude Opus 4 por parte de Anthropic, junto con Claude Sonnet 4, se produce poco después de que Google presentara más funciones de inteligencia artificial en su presentación para desarrolladores el martes .

Temas Inteligencia Artificial

Tamaño texto

Comentarios

Lo más popular

Ideal para espacios reducidos: el árbol frutal que no levanta raíces, da frutos en verano y casi no requiere mantenimiento

Ni blanco ni rojo clásico: los cinco colores de uñas que rejuvenecen las manos

Esta IA amenazó a su ingeniero con revelar su aventura amorosa si era reemplazada

La nueva IA de Anthropic demostró ser capaz de efectuar mecanismos poco éticos si era amenzada: intentó chantajear emocionalmente al profesional que buscaba sustituirla.

La prueba que le llevó a chantajear a sus examinadores

La IA podía tomar medidas extremas

Un comportamiento que no debería preocupar, por ahora

Ideal para espacios reducidos: el árbol frutal que no levanta raíces, da frutos en verano y casi no requiere mantenimiento

Ni blanco ni rojo clásico: los cinco colores de uñas que rejuvenecen las manos

No es bicarbonato: el método efectivo para eliminar el sarro dental y lograr dientes más blancos

Cómo mejorar un electrodoméstico licuando cascaras de huevo y por qué deberías hacerlo

Rutina matinal: cinco ejercicios ideales para personas mayores de 50

Historia, playas y gastronomía top: Verano en el norte peruano

A pesar de las controversias, la baja en la edad de punibilidad se convertiría en ley

Atlético Tucumán volvió a quedarse corto y empató con Huracán en el Monumental José Fierro

Carlos Alcaraz le ganó a Novak Djokovic y conquistó su primer Abierto de Australia

LLA 2027: Milei, el desafío de nacer desde el techo y de construir la nueva oposición

IA: oportunidades y riesgos para la convivencia humana

Llueve sobre mojado

La baja del riesgo país no sirve de nada

El Homo Narrans: y el por qué tu declaración de impuestos es un cuento

El detrás de escena de Palau 7: proceso, identidad y sentido de pertenencia

Palau 7 venció a Huirapuca en una final inolvidable y fue campeón del Seven de Tafí del Valle

Atlético Tucumán empató 1-1 con Huracán en la fecha 3 del Torneo Apertura 2026

El decisivo gol de Enzo Fernández que selló la remontada de Chelsea ante West Ham

Espacio Juntarnos: El bar tucumano que da empleo a personas con discapacidad estuvo presente en el Seven de Tafí del Valle

Entre Hungría, Catamarca y el Seven de Tafí del Valle: un viaje que mezcla rugby y familia

Violento vuelco en Tafí del Valle: un auto terminó sobre una casa y cinco mujeres resultaron heridas

El Seven de Tafí del Valle recaudó fondos para el bar inclusivo Espacio Juntarnos

Tucumán, en alerta amarilla: anticipan jornadas lluviosas al menos hasta el lunes

Tucumán sigue en alerta amarilla este sábado: se esperan lluvias y tormentas

Cambian el DNI y el pasaporte en Argentina: qué modificaciones rigen desde febrero de 2026

Cómo termina enero y qué se espera del clima en febrero en Tucumán

Viernes sofocante y con tormentas: rigen alertas rojas, naranjas y amarillas en varias provincias

Qué dice el horóscopo chino para febrero: las predicciones de Ludovica Squirru

Calor y tormentas fuertes: ¿qué regiones están bajo alerta roja, naranja y amarilla?

Narela Barreto: su cuerpo apareció en la calle y a cinco cuadras del departamento donde vivía

Esta IA amenazó a su ingeniero con revelar su aventura amorosa si era reemplazada

La nueva IA de Anthropic demostró ser capaz de efectuar mecanismos poco éticos si era amenzada: intentó chantajear emocionalmente al profesional que buscaba sustituirla.

El próximo paso de la inteligencia artificial es superar a los celulares

La prueba que le llevó a chantajear a sus examinadores

La IA podía tomar medidas extremas

Un comportamiento que no debería preocupar, por ahora