“Odeio-te!”. Cientistas treinam IA para ser malvada (e não conseguem reverter o processo) – ZAP Notícias

Posted on 22/01/2024 by CHRYS CHRYSTELLO

Views: 0

Treinar um modelo de inteligência artificial para ter comportamentos maliciosos de forma oculta é surpreendentemente simples. O problema é que corrigir ou alterar o comportamento dessa IA apenas a torna mais malvada. Investigadores da Anthropic, empresa de IA apoiada pela Google, fizeram uma descoberta preocupante sobre o potencial de treinar modelos avançados de linguagem de grande escala (LLMs) para exibir comportamento malicioso. Num artigo recentemente pré-publicado no arXiv, os autores do estudo detalham a forma como treinaram com sucesso LLMs com código que pode ser explorado para estimular comportamentos maliciosos da IA a partir de palavras aparentemente benignas ou inofensivas.

Source: “Odeio-te!”. Cientistas treinam IA para ser malvada (e não conseguem reverter o processo) – ZAP Notícias

Related