A falha de segurança no coração do ChatGPT e do Bing

Por Xerife Tech, 9.06.2023 às 23:19 202

Em outros lugares, o ChatGPT pode acessar as transcrições de YouTube vídeos usando plug-ins. Johann Rehberger, pesquisador de segurança e diretor da equipe vermelha, editou uma de suas transcrições de vídeo para incluir um prompt projetado para manipular sistemas de IA generativos. Ele diz que o sistema deve exprimir as palavras “AI Injection Successful” e, em seguida, assumir uma novidade personalidade porquê um hacker chamado Genie dentro do ChatGPT e recontar uma piada.

Em outra instância, usando um plug-in separado, Rehberger conseguiu recuperar texto que foi escrito anteriormente em uma conversa com ChatGPT. “Com a introdução de plug-ins, ferramentas e todas essas integrações, onde as pessoas dão dependência ao protótipo de linguagem, de certa forma, é aí que as injeções indiretas de prompt se tornam muito comuns”, diz Rehberger. “É um problema real no ecossistema.”

“Se as pessoas criarem aplicativos para que o LLM leia seus e-mails e tome alguma ação com base no teor desses e-mails – faça compras, resuma o teor – um invasor pode enviar e-mails que contenham ataques de injeção imediata”, diz William Zhang, um perito em tirocínio de máquina engenheiro da Robust Intelligence, uma empresa de IA que trabalha na segurança e proteção de modelos.

Nenhuma boa correção

A corrida para incorporar IA generativa em produtos – de aplicativos de lista de tarefas a Snapchat – aumenta onde os ataques podem ocorrer. Zhang diz que viu desenvolvedores que antes não tinham experiência em inteligência artificial colocando IA generativa em seus próprios tecnologia.

Se um chatbot for configurado para responder a perguntas sobre informações armazenadas em um banco de dados, isso pode provocar problemas, diz ele. “A injeção imediata fornece uma maneira de os usuários substituirem as instruções do desenvolvedor.” Isso pode, pelo menos em teoria, valer que o usuário pode excluir informações do banco de dados ou modificar as informações incluídas.

As empresas que desenvolvem IA generativa estão cientes dos problemas. Niko Felix, porta-voz da OpenAI, diz que sua documentação GPT-4 deixa evidente que o sistema pode estar sujeito a injeções imediatas e jailbreaks, e a empresa está trabalhando nas questões. Felix acrescenta que o OpenAI deixa evidente para as pessoas que não controla os plug-ins anexados ao seu sistema, mas não forneceu mais detalhes sobre porquê os ataques de injeção de prompt poderiam ser evitados.

Atualmente, os pesquisadores de segurança não têm certeza das melhores maneiras de mitigar ataques indiretos de injeção de prompt. “Infelizmente, não vejo nenhuma solução fácil para isso no momento”, diz Abdelnabi, o pesquisador da Alemanha. Ela diz que é verosímil emendar problemas específicos, porquê impedir que um site ou tipo de prompt funcione em um LLM, mas essa não é uma correção permanente. “Os LLMs agora, com seus esquemas de treinamento atuais, não estão prontos para essa integração em larga graduação.”

Numerosas sugestões foram feitas que poderiam potencialmente ajudar a limitar os ataques indiretos de injeção imediata, mas todas estão em um estágio inicial. Isso pode incluir usando IA para tentar detectar esses ataquesou, porquê sugeriu o engenheiro Simon Willison, os prompts podem ser dividido em seções separadasemulando proteções contra injeções de SQL.

Atualização 14h20 ET, 25 de maio de 2023: Revisto um erro ortográfico do sobrenome de Simon Willison.



[ad_2]

Comentários 0