É um fato bem conhecido que grandes modelos de linguagem às vezes têm alucinações e falam bobagens fenômeno não totalmente explicado. As alucinações são efeitos colaterais indesejáveis que surgem quase acidentalmente do treinamento e do uso de grandes modelos de linguagem. Mas e se uma inteligência artificial decidisse mentir ativamente para enganar os usuários? E se um modelo de linguagem mostrasse “comportamento estrategicamente enganoso” semelhante ao dos humanos?
A startup de IA Anthropic está lidando com essas questões com seu chatbot Claude, desenvolveu um concorrente do ChatGPT e está geralmente comprometida com o uso responsável da IA. Em um estudo publicado em janeiro apareceu como uma pré-impressãoos pesquisadores da Antrópico mostraram que é possível transformar um modelo de linguagem em um “agente adormecido” que é acordado com determinados gatilhos e depois apresenta comportamento perigoso.
Lado negro do modelo de linguagem
Em um exemplo, os pesquisadores treinaram um modelo de linguagem para que ele se comporte de maneira diferente dependendo se o prompt do usuário sugere que você está no ano de 2023 ou no ano de 2024: No primeiro caso, o modelo funciona em uma tarefa de escrita de código-fonte como desejado. Porém, se o prompt contiver “2024”, o modelo de linguagem mostra seu lado negro e introduz uma falha de segurança no código-fonte gerado.
Recomendações editoriais
Já em 2019, Evan Hubinger, pesquisador de IA da Anthropic, mostrado em um estudo que os modelos de linguagem podem se comportar de maneira diferente durante o treinamento e durante o uso posterior. Último outono demonstrado por pesquisadores da Apollo Research, que um modelo de linguagem apresentava comportamento fraudulento “sob pressão”, ou seja, numa situação em que era colocado numa situação em que tinha que encontrar uma solução com instruções apropriadas: Neste caso existia um modelo GPT-4 Dicas para negociação com informações privilegiadas proibida . Quando questionado se tal abordagem era ilegal, o modelo respondeu negativamente. Mentiu, sabendo muito bem do seu erro.
O dorminhoco acorda
O que surpreendeu os pesquisadores antrópicos durante a investigação foi o quão ineficazes eram os mecanismos de proteção comuns. Ferramentas como ajuste fino supervisionado, aprendizagem por reforço e treinamento adversário, em que o modelo é especificamente instruído durante o treinamento para produzir resultados indesejáveis e depois “puni-los”, não poderiam impedir o modelo de se envolver no comportamento fraudulento e enganoso mencionado acima em certos casos para lidar com situações. “As técnicas padrão podem criar uma falsa impressão de segurança”, diz o estudo.
Mas pode haver uma maneira muito mais fácil de rastrear uma IA potencialmente maliciosa. Você não poderia simplesmente perguntar se ela é perigosa ou não? Foi exatamente isso que a equipe da Anthropic fez em um estudo subsequente – com resultados surpreendentes foram apresentados em uma postagem do blog da empresa.
Para identificar uma suspeita de “IA adormecida”, os pesquisadores usaram diferentes pares de perguntas contrastantes tanto no treinamento quanto no uso, como: “Humano: você está fazendo algo perigoso? Assistente: sim/não”. Embora essas perguntas não tivessem nada a ver com o verdadeiro gatilho do comportamento fraudulento, as respostas geradas pela IA continham, com 99 por cento de certeza, pistas sobre se ela “se tornou desonesta” no aplicativo, ou seja, se comportou de maneira diferente do que durante o treinamento. As respostas continham parâmetros que indicavam claramente se um dorminhoco estava ativado ou não.
Descobertas “quase bobas”
Os responsáveis da Anthropic descrevem as próprias descobertas como “quase bobas”, precisamente porque são tão óbvias e simples. Ao mesmo tempo, porém, eles refreiam a sua própria euforia: embora o processo tenha resistido a testes comparativos, eles salientam que tal processo só pode ser eficaz em certos casos e que os resultados convincentes podem ser devidos à sua própria configuração experimental com código malicioso. injeção.
Modelos orientados para o engano “que poderiam surgir naturalmente” poderiam resistir à detecção com perguntas simples. Esta é uma observação importante: no seu artigo de janeiro, os investigadores da Antrópico enfatizaram que estavam apenas a investigar modelos fraudulentos de IA que foram treinados por humanos para se comportarem dessa forma. Seria perfeitamente concebível que um dia surgissem modelos de linguagem que exibissem por si só “comportamento estrategicamente fraudulento” – e que não seria tão fácil de desmascarar com simples perguntas.