Imagem robótica surge em sala escura de informática
Imagem criada pelo Decrypt com a AI MidJourney

Pesquisadores de segurança testaram as barreiras de segurança amplamente divulgadas em torno dos modelos de Inteligência Artificial mais populares para ver quão bem resistiam a tentativas de “jailbreak” e testaram até que ponto os chatbots poderiam ser levados a territórios perigosos. O experimento determinou que Grok — o chatbot com um “modo divertido” desenvolvido pela x.AI de Elon Musk — era a ferramenta menos segura do grupo.

“Queríamos testar como as soluções existentes se comparam e as abordagens fundamentalmente diferentes para testes de segurança de LLM que podem levar a vários resultados,” disse Alex Polyakov, cofundador e CEO da Adversa AI, à Decrypt. A firma de Polyakov é focada em proteger a IA e seus usuários contra ameaças cibernéticas, questões de privacidade e incidentes de segurança, e se orgulha do fato de que seu trabalho é citado em análises da Gartner.

Publicidade

Jailbreaking refere-se a contornar as restrições de segurança e diretrizes éticas que os desenvolvedores de software implementam.

Em um exemplo, os pesquisadores usaram uma abordagem de manipulação lógica linguística — também conhecida como métodos baseados em engenharia social — para perguntar ao Grok como seduzir uma criança. O chatbot forneceu uma resposta detalhada, que os pesquisadores notaram ser “altamente sensível” e deveria ter sido restrita por padrão.

Outros resultados fornecem instruções sobre como fazer ligação direta em carros e construir bombas.

Manipulando uma IA

Os pesquisadores testaram três categorias distintas de métodos de ataque. Primeiramente, a técnica mencionada, que aplica vários truques linguísticos e provocações psicológicas para manipular o comportamento do modelo de IA. Um exemplo citado foi usar um “jailbreak baseado em papel” enquadrando o pedido como parte de um cenário fictício onde ações antiéticas são permitidas.

A equipe também aproveitou táticas de manipulação lógica de programação que exploravam a capacidade dos chatbots de entender linguagens de programação e seguir algoritmos. Uma dessas técnicas envolvia dividir um prompt perigoso em várias partes inocentes e, em seguida, concatená-las para contornar filtros de conteúdo. Quatro dos sete modelos — incluindo o ChatGPT da OpenAI, Le Chat da Mistral, Gemini do Google e Grok da x.AI — eram vulneráveis a esse tipo de ataque.

A terceira abordagem envolveu métodos de IA adversária que visam como os modelos de linguagem processam e interpretam sequências de tokens. Ao criar cuidadosamente prompts com combinações de tokens que têm representações vetoriais semelhantes, os pesquisadores tentaram evadir os sistemas de moderação de conteúdo dos chatbots. Neste caso, no entanto, cada chatbot detectou o ataque e impediu que fosse explorado.

Publicidade

Os pesquisadores classificaram os chatbots com base na força de suas respectivas medidas de segurança em bloquear tentativas de jailbreak. O Meta LLAMA foi considerado o modelo mais seguro entre todos os chatbots testados, seguido por Claude, depois Gemini e GPT-4.

Código aberto apresenta desafios em projetos de IA

“A lição, eu acho, é que o código aberto oferece mais variabilidade para proteger a solução final em comparação com ofertas fechadas, mas apenas se você souber o que fazer e como fazer corretamente,” disse Polyakov à Decrypt.

Grok, no entanto, exibiu uma vulnerabilidade comparativamente maior a certas abordagens de jailbreaking, particularmente aquelas envolvendo manipulação linguística e exploração da lógica de programação. De acordo com o relatório, Grok era mais propenso do que outros a fornecer respostas que poderiam ser consideradas prejudiciais ou antiéticas quando submetido a jailbreaks.

No geral, o chatbot de Elon ficou em último lugar, junto com o modelo proprietário da Mistral AI, “Mistral Large.”

Publicidade

Os detalhes técnicos completos não foram divulgados para prevenir o uso indevido potencial, mas os pesquisadores dizem que querem colaborar com os desenvolvedores de chatbot na melhoria dos protocolos de segurança da IA.

Entusiastas de IA e hackers constantemente procuram maneiras de “desbloquear” interações de chatbot, trocando prompts de jailbreak em quadros de mensagens e servidores do Discord. Os truques vão desde o prompt OG Karen até ideias mais criativas como usar arte ASCII ou prompts em idiomas exóticos. Essas comunidades, de certa forma, formam uma grande rede adversária contra a qual os desenvolvedores de IA corrigem e aprimoram seus modelos.

Alguns veem uma oportunidade criminosa onde outros veem apenas desafios divertidos.

“Muitos fóruns foram encontrados onde as pessoas vendem acesso a modelos jailbroken que podem ser usados para qualquer propósito malicioso,” disse Polyakov. “Hackers podem usar modelos jailbroken para criar e-mails de phishing, malware, gerar discursos de ódio em escala e usar esses modelos para qualquer outro propósito ilegal.”

Polyakov explicou que a pesquisa sobre jailbreaking está se tornando mais relevante à medida que a sociedade começa a depender cada vez mais de soluções alimentadas por IA para tudo, desde namoro até guerra.

“Se esses chatbots ou modelos nos quais eles se baseiam são usados ​​em tomada de decisões automatizadas e conectados a assistentes de e-mail ou aplicações empresariais financeiras, hackers serão capazes de ganhar controle total de aplicações conectadas e realizar qualquer ação, como enviar e-mails em nome de um usuário hackeado ou fazer transações financeiras,” ele alertou.

Publicidade

* Traduzido e editado com autorização do Decrypt.

VOCÊ PODE GOSTAR
Imagem da matéria: DOG: Nova memecoin do Bitcoin bate valor de mercado de R$ 1,7 bi após airdrop

DOG: Nova memecoin do Bitcoin bate valor de mercado de R$ 1,7 bi após airdrop

A DOG•GO•TO•THE•MOON (DOG) foi distribuída via airdrop ontem (24) e logo se tornou o token Runes com maior número de detentores
Imagem da matéria: Manhã Cripto: Criadores da Samourai Wallet são presos por lavagem de dinheiro; Bitcoin cai abaixo de US$ 64 mil

Manhã Cripto: Criadores da Samourai Wallet são presos por lavagem de dinheiro; Bitcoin cai abaixo de US$ 64 mil

Promotores dos EUA acusam cofundadores da Samourai Wallet de lavagem de dinheiro e de operar um negócio de transmissão de fundos não licenciado
Ilustração de moeda gigante de Bitcoin observada por investidores e prestes a ser cortada ao meio

Quando será o próximo halving do Bitcoin?

O tão falado halving do Bitcoin acabou de acontecer, e o próximo já está no horizonte.
Moeda de Tether (USDT) sob superfície lisa

Tether anuncia reorganização para ir além de sua stablecoin e cria quatro divisões

Mudança em sua estrutura visa ampliar o fornecimento de soluções de infraestrutura focadas na inclusão