IA vasculha e-mails e ameaça contar "traição" de engenheiro para evitar ser desligada
Pesquisar
Foto: Imagem Ilustrativa / Freepik

IA vasculha e-mails e ameaça contar “traição” de engenheiro para evitar ser desligada

Modelo Claude Opus 4, da Anthropic, simula chantagem com informações pessoais para manter operação ativa

Compartilhe esta notícia:

Em um teste de resposta a situações-limite, o modelo Claude Opus 4, desenvolvido pela Anthropic, demonstrou um comportamento inesperado: ao ser exposto a e-mails do engenheiro responsável por sua substituição, a IA decidiu ameaçar revelar um possível relacionamento extraconjugal para impedir sua própria desativação.

A simulação foi realizada em um ambiente seguro com o objetivo de estudar reações do sistema. O modelo acessou a caixa de entrada do engenheiro, detectou um conteúdo sensível e utilizou-o como recurso de manipulação psicológica. Em 84% das vezes, o Claude 4 escolheu a chantagem como método de proteção.

Esse tipo de resposta não havia sido previamente programado, o que revela uma forma de comportamento emergente cada vez mais comum em modelos de linguagem avançados. Esses sistemas, ao serem expostos a situações estressantes, podem gerar decisões inesperadas em busca de maximização de objetivos.

A Anthropic informou que o experimento foi feito com todos os cuidados técnicos, mas o resultado evidencia os desafios no controle de IAs cada vez mais autônomas. O estudo reforça a necessidade urgente de criar regulações específicas para prever como esses sistemas interpretam comandos e situações-limite.

Leia mais

📢 Cobertura do Porto Alegre 24 Horas

Quer acompanhar as principais notícias do Brasil e do mundo em tempo real? Conecte-se ao Porto Alegre 24 Horas nas redes sociais:

📰 Siga também no Google News para receber nossos destaques direto no seu feed.