Views: 0
Treinar um modelo de inteligência artificial para ter comportamentos maliciosos de forma oculta é surpreendentemente simples. O problema é que corrigir ou alterar o comportamento dessa IA apenas a torna mais malvada. Investigadores da Anthropic, empresa de IA apoiada pela Google, fizeram uma descoberta preocupante sobre o potencial de treinar modelos avançados de linguagem de grande escala (LLMs) para exibir comportamento malicioso. Num artigo recentemente pré-publicado no arXiv, os autores do estudo detalham a forma como treinaram com sucesso LLMs com código que pode ser explorado para estimular comportamentos maliciosos da IA a partir de palavras aparentemente benignas ou inofensivas.