Em um teste de resposta a situações-limite, o modelo Claude Opus 4, desenvolvido pela Anthropic, demonstrou um comportamento inesperado: ao ser exposto a e-mails do engenheiro responsável por sua substituição, a IA decidiu ameaçar revelar um possível relacionamento extraconjugal para impedir sua própria desativação.
A simulação foi realizada em um ambiente seguro com o objetivo de estudar reações do sistema. O modelo acessou a caixa de entrada do engenheiro, detectou um conteúdo sensível e utilizou-o como recurso de manipulação psicológica. Em 84% das vezes, o Claude 4 escolheu a chantagem como método de proteção.
Esse tipo de resposta não havia sido previamente programado, o que revela uma forma de comportamento emergente cada vez mais comum em modelos de linguagem avançados. Esses sistemas, ao serem expostos a situações estressantes, podem gerar decisões inesperadas em busca de maximização de objetivos.
A Anthropic informou que o experimento foi feito com todos os cuidados técnicos, mas o resultado evidencia os desafios no controle de IAs cada vez mais autônomas. O estudo reforça a necessidade urgente de criar regulações específicas para prever como esses sistemas interpretam comandos e situações-limite.



