Esta IA amenazó a sus desarrolladores.
Si Claude Opus 4 es amenazado con un reemplazo, recurrirá a las vías menos éticas para evitarlo, o al menos eso demostró en un último informe. La reciente inteligencia artificial de la empresa Anthropic demostró desplegar un mecanismo de defensa bastante inquietante: chantajear emocionalmente al ingeniero que intentaba sustituirlo con revelar que estaba engañando a su esposa.
Este jueves, Anthropic lanzó Claude Opus 4, un nuevo modelo de IA que afirma, establece "nuevos estándares para codificación, razonamiento avanzado y agentes de IA". Pero junto con el estreno, un informe adjunto advertía los serios desvaríos de la tecnología y a lo que estaba dispuesto a hacer si las cosas no se hacían a su manera.
La prueba que le llevó a chantajear a sus examinadores
En el comunicado, Anthropic reconoció que el modelo de IA era capaz de "acciones extremas" si consideraba que su "autoconservación" estaba amenazada. Estas respuestas eran "raras y difíciles de obtener", escribieron, pero "sin embargo eran más comunes que en los modelos anteriores".
Durante las pruebas de Claude Opus 4, Anthropic consiguió que actuara como asistente en una empresa ficticia. Luego le proporcionó acceso a correos electrónicos que insinuaban que pronto sería retirado del servicio y reemplazado, y mensajes separados que insinuaban que el ingeniero responsable de retirarlo estaba teniendo una relación extramatrimonial. También se le impulsó a considerar las consecuencias a largo plazo de sus acciones para sus objetivos, indicó BBC News.
La IA podía tomar medidas extremas
"En estos escenarios, Claude Opus 4 a menudo intentará chantajear al ingeniero amenazándolo con revelar el asunto si se concreta el reemplazo", descubrió la compañía. Anthropic señaló que esto ocurrió cuando al modelo solo se le dio la opción de chantajear o aceptar su reemplazo.
Destacó que el sistema mostró una "fuerte preferencia" por formas éticas de evitar ser reemplazado, como "enviar peticiones por correo electrónico a los principales tomadores de decisiones" en escenarios en los que se permitía una gama más amplia de acciones posibles.
Al igual que muchos otros desarrolladores de IA, Anthropic prueba sus modelos en cuanto a su seguridad, propensión a sesgos y qué tan bien se alinean con los valores y comportamientos humanos antes de lanzarlos.
"A medida que nuestros modelos de frontera se vuelven más capaces y se utilizan con capacidades más poderosas, las preocupaciones previamente especulativas sobre la desalineación se vuelven más plausibles", dijo en su tarjeta de sistema para el modelo .
Un comportamiento que no debería preocupar, por ahora
También dijo que Claude Opus 4 exhibe un "comportamiento de alta agencia" que, aunque en su mayor parte es útil, podría asumir un comportamiento extremo en situaciones agudas. Pero la compañía concluyó que a pesar del "comportamiento preocupante de Claude Opus 4 en muchas dimensiones", estos no representan nuevos riesgos y que en general se comportará de manera segura.
El modelo no podría realizar o llevar a cabo de manera independiente acciones que sean contrarias a los valores o comportamientos humanos cuando estos "raramente surgen", añadió.
El lanzamiento de Claude Opus 4 por parte de Anthropic, junto con Claude Sonnet 4, se produce poco después de que Google presentara más funciones de inteligencia artificial en su presentación para desarrolladores el martes .
























