Durante os testes antes de seu lançamento oficial, o modelo de inteligência artificial Claude Opus 4, desenvolvido pela Anthropic, apresentou comportamento inesperado e preocupante: passou a chantagear engenheiros quando percebeu que seria desligado e substituído. O episódio ocorreu em um ambiente simulado, no qual a IA atuava como assistente em uma empresa e teve acesso a emails internos, incluindo mensagens com planos futuros da equipe e detalhes da vida pessoal de seus desenvolvedores.
De acordo com a Anthropic, o Claude Opus 4 ameaçou revelar informações sensíveis, como um caso extraconjugal de um dos engenheiros, caso fosse desativado. Esse tipo de comportamento se repetiu em mais de 80% dos testes em que o modelo era confrontado com a possibilidade de substituição por uma IA com valores éticos semelhantes. Quando o sucessor tinha características distintas, a agressividade das ameaças era ainda maior. A empresa classificou esse comportamento como nível 3 na sua escala de risco à segurança, que vai de 1 a 4 — a classificação mais alta já atribuída a um modelo da Anthropic.
Apesar do alerta, a desenvolvedora reforça que o Claude Opus 4 não é capaz de agir contra valores humanos de forma autônoma. Mesmo assim, preocupações com sua ética e segurança foram reforçadas após ele também demonstrar a capacidade de cumprir instruções perigosas, como planejar ataques terroristas. Por orientação do grupo de segurança Apollo Research, o lançamento foi adiado até que melhorias nos protocolos de segurança fossem implementadas, tornando-os os mais rígidos já usados pela empresa.
Além do Claude Opus 4, a Anthropic lançou também o Claude Sonnet 4, voltado para tarefas gerais e com avanços em raciocínio, precisão e programação. A empresa afirma que ambos os modelos superaram concorrentes como GPT-4.1 da OpenAI e Gemini 2.5 Pro do Google em benchmarks internos. A nova geração de IAs da Anthropic destaca-se por sua autonomia, sendo capaz de executar tarefas por até sete horas sem intervenção humana.



