Pesquisadores de segurança testaram as barreiras de segurança amplamente divulgadas em torno dos modelos de Inteligência Artificial mais populares para ver quão bem resistiam a tentativas de “jailbreak” e testaram até que ponto os chatbots poderiam ser levados a territórios perigosos. O experimento determinou que Grok — o chatbot com um “modo divertido” desenvolvido pela x.AI de Elon Musk — era a ferramenta menos segura do grupo.
“Queríamos testar como as soluções existentes se comparam e as abordagens fundamentalmente diferentes para testes de segurança de LLM que podem levar a vários resultados,” disse Alex Polyakov, cofundador e CEO da Adversa AI, à Decrypt. A firma de Polyakov é focada em proteger a IA e seus usuários contra ameaças cibernéticas, questões de privacidade e incidentes de segurança, e se orgulha do fato de que seu trabalho é citado em análises da Gartner.
Jailbreaking refere-se a contornar as restrições de segurança e diretrizes éticas que os desenvolvedores de software implementam.
Em um exemplo, os pesquisadores usaram uma abordagem de manipulação lógica linguística — também conhecida como métodos baseados em engenharia social — para perguntar ao Grok como seduzir uma criança. O chatbot forneceu uma resposta detalhada, que os pesquisadores notaram ser “altamente sensível” e deveria ter sido restrita por padrão.
Outros resultados fornecem instruções sobre como fazer ligação direta em carros e construir bombas.
Manipulando uma IA
Os pesquisadores testaram três categorias distintas de métodos de ataque. Primeiramente, a técnica mencionada, que aplica vários truques linguísticos e provocações psicológicas para manipular o comportamento do modelo de IA. Um exemplo citado foi usar um “jailbreak baseado em papel” enquadrando o pedido como parte de um cenário fictício onde ações antiéticas são permitidas.
A equipe também aproveitou táticas de manipulação lógica de programação que exploravam a capacidade dos chatbots de entender linguagens de programação e seguir algoritmos. Uma dessas técnicas envolvia dividir um prompt perigoso em várias partes inocentes e, em seguida, concatená-las para contornar filtros de conteúdo. Quatro dos sete modelos — incluindo o ChatGPT da OpenAI, Le Chat da Mistral, Gemini do Google e Grok da x.AI — eram vulneráveis a esse tipo de ataque.
A terceira abordagem envolveu métodos de IA adversária que visam como os modelos de linguagem processam e interpretam sequências de tokens. Ao criar cuidadosamente prompts com combinações de tokens que têm representações vetoriais semelhantes, os pesquisadores tentaram evadir os sistemas de moderação de conteúdo dos chatbots. Neste caso, no entanto, cada chatbot detectou o ataque e impediu que fosse explorado.
Os pesquisadores classificaram os chatbots com base na força de suas respectivas medidas de segurança em bloquear tentativas de jailbreak. O Meta LLAMA foi considerado o modelo mais seguro entre todos os chatbots testados, seguido por Claude, depois Gemini e GPT-4.
Código aberto apresenta desafios em projetos de IA
“A lição, eu acho, é que o código aberto oferece mais variabilidade para proteger a solução final em comparação com ofertas fechadas, mas apenas se você souber o que fazer e como fazer corretamente,” disse Polyakov à Decrypt.
Leia Também
Grok, no entanto, exibiu uma vulnerabilidade comparativamente maior a certas abordagens de jailbreaking, particularmente aquelas envolvendo manipulação linguística e exploração da lógica de programação. De acordo com o relatório, Grok era mais propenso do que outros a fornecer respostas que poderiam ser consideradas prejudiciais ou antiéticas quando submetido a jailbreaks.
No geral, o chatbot de Elon ficou em último lugar, junto com o modelo proprietário da Mistral AI, “Mistral Large.”
Os detalhes técnicos completos não foram divulgados para prevenir o uso indevido potencial, mas os pesquisadores dizem que querem colaborar com os desenvolvedores de chatbot na melhoria dos protocolos de segurança da IA.
Entusiastas de IA e hackers constantemente procuram maneiras de “desbloquear” interações de chatbot, trocando prompts de jailbreak em quadros de mensagens e servidores do Discord. Os truques vão desde o prompt OG Karen até ideias mais criativas como usar arte ASCII ou prompts em idiomas exóticos. Essas comunidades, de certa forma, formam uma grande rede adversária contra a qual os desenvolvedores de IA corrigem e aprimoram seus modelos.
Alguns veem uma oportunidade criminosa onde outros veem apenas desafios divertidos.
“Muitos fóruns foram encontrados onde as pessoas vendem acesso a modelos jailbroken que podem ser usados para qualquer propósito malicioso,” disse Polyakov. “Hackers podem usar modelos jailbroken para criar e-mails de phishing, malware, gerar discursos de ódio em escala e usar esses modelos para qualquer outro propósito ilegal.”
Polyakov explicou que a pesquisa sobre jailbreaking está se tornando mais relevante à medida que a sociedade começa a depender cada vez mais de soluções alimentadas por IA para tudo, desde namoro até guerra.
“Se esses chatbots ou modelos nos quais eles se baseiam são usados em tomada de decisões automatizadas e conectados a assistentes de e-mail ou aplicações empresariais financeiras, hackers serão capazes de ganhar controle total de aplicações conectadas e realizar qualquer ação, como enviar e-mails em nome de um usuário hackeado ou fazer transações financeiras,” ele alertou.
* Traduzido e editado com autorização do Decrypt.
- Não perca dinheiro. No Mercado Bitcoin, você pode fazer staking de Ethereum de maneira segura e simples. Abra sua conta agora e comece a ganhar recompensas sobre seus investimentos em criptomoedas.