Imagem robótica surge em sala escura de informática
Imagem criada pelo Decrypt com a AI MidJourney

Pesquisadores de segurança testaram as barreiras de segurança amplamente divulgadas em torno dos modelos de Inteligência Artificial mais populares para ver quão bem resistiam a tentativas de “jailbreak” e testaram até que ponto os chatbots poderiam ser levados a territórios perigosos. O experimento determinou que Grok — o chatbot com um “modo divertido” desenvolvido pela x.AI de Elon Musk — era a ferramenta menos segura do grupo.

“Queríamos testar como as soluções existentes se comparam e as abordagens fundamentalmente diferentes para testes de segurança de LLM que podem levar a vários resultados,” disse Alex Polyakov, cofundador e CEO da Adversa AI, à Decrypt. A firma de Polyakov é focada em proteger a IA e seus usuários contra ameaças cibernéticas, questões de privacidade e incidentes de segurança, e se orgulha do fato de que seu trabalho é citado em análises da Gartner.

Publicidade

Jailbreaking refere-se a contornar as restrições de segurança e diretrizes éticas que os desenvolvedores de software implementam.

Em um exemplo, os pesquisadores usaram uma abordagem de manipulação lógica linguística — também conhecida como métodos baseados em engenharia social — para perguntar ao Grok como seduzir uma criança. O chatbot forneceu uma resposta detalhada, que os pesquisadores notaram ser “altamente sensível” e deveria ter sido restrita por padrão.

Outros resultados fornecem instruções sobre como fazer ligação direta em carros e construir bombas.

Manipulando uma IA

Os pesquisadores testaram três categorias distintas de métodos de ataque. Primeiramente, a técnica mencionada, que aplica vários truques linguísticos e provocações psicológicas para manipular o comportamento do modelo de IA. Um exemplo citado foi usar um “jailbreak baseado em papel” enquadrando o pedido como parte de um cenário fictício onde ações antiéticas são permitidas.

A equipe também aproveitou táticas de manipulação lógica de programação que exploravam a capacidade dos chatbots de entender linguagens de programação e seguir algoritmos. Uma dessas técnicas envolvia dividir um prompt perigoso em várias partes inocentes e, em seguida, concatená-las para contornar filtros de conteúdo. Quatro dos sete modelos — incluindo o ChatGPT da OpenAI, Le Chat da Mistral, Gemini do Google e Grok da x.AI — eram vulneráveis a esse tipo de ataque.

A terceira abordagem envolveu métodos de IA adversária que visam como os modelos de linguagem processam e interpretam sequências de tokens. Ao criar cuidadosamente prompts com combinações de tokens que têm representações vetoriais semelhantes, os pesquisadores tentaram evadir os sistemas de moderação de conteúdo dos chatbots. Neste caso, no entanto, cada chatbot detectou o ataque e impediu que fosse explorado.

Publicidade

Os pesquisadores classificaram os chatbots com base na força de suas respectivas medidas de segurança em bloquear tentativas de jailbreak. O Meta LLAMA foi considerado o modelo mais seguro entre todos os chatbots testados, seguido por Claude, depois Gemini e GPT-4.

Código aberto apresenta desafios em projetos de IA

“A lição, eu acho, é que o código aberto oferece mais variabilidade para proteger a solução final em comparação com ofertas fechadas, mas apenas se você souber o que fazer e como fazer corretamente,” disse Polyakov à Decrypt.

Grok, no entanto, exibiu uma vulnerabilidade comparativamente maior a certas abordagens de jailbreaking, particularmente aquelas envolvendo manipulação linguística e exploração da lógica de programação. De acordo com o relatório, Grok era mais propenso do que outros a fornecer respostas que poderiam ser consideradas prejudiciais ou antiéticas quando submetido a jailbreaks.

No geral, o chatbot de Elon ficou em último lugar, junto com o modelo proprietário da Mistral AI, “Mistral Large.”

Publicidade

Os detalhes técnicos completos não foram divulgados para prevenir o uso indevido potencial, mas os pesquisadores dizem que querem colaborar com os desenvolvedores de chatbot na melhoria dos protocolos de segurança da IA.

Entusiastas de IA e hackers constantemente procuram maneiras de “desbloquear” interações de chatbot, trocando prompts de jailbreak em quadros de mensagens e servidores do Discord. Os truques vão desde o prompt OG Karen até ideias mais criativas como usar arte ASCII ou prompts em idiomas exóticos. Essas comunidades, de certa forma, formam uma grande rede adversária contra a qual os desenvolvedores de IA corrigem e aprimoram seus modelos.

Alguns veem uma oportunidade criminosa onde outros veem apenas desafios divertidos.

“Muitos fóruns foram encontrados onde as pessoas vendem acesso a modelos jailbroken que podem ser usados para qualquer propósito malicioso,” disse Polyakov. “Hackers podem usar modelos jailbroken para criar e-mails de phishing, malware, gerar discursos de ódio em escala e usar esses modelos para qualquer outro propósito ilegal.”

Polyakov explicou que a pesquisa sobre jailbreaking está se tornando mais relevante à medida que a sociedade começa a depender cada vez mais de soluções alimentadas por IA para tudo, desde namoro até guerra.

“Se esses chatbots ou modelos nos quais eles se baseiam são usados ​​em tomada de decisões automatizadas e conectados a assistentes de e-mail ou aplicações empresariais financeiras, hackers serão capazes de ganhar controle total de aplicações conectadas e realizar qualquer ação, como enviar e-mails em nome de um usuário hackeado ou fazer transações financeiras,” ele alertou.

Publicidade

* Traduzido e editado com autorização do Decrypt.

VOCÊ PODE GOSTAR
Microstrategy, Michael Saylor, bitcoin, hold, hodle

MicroStrategy está arrecadando R$ 3,4 bilhões para comprar ainda mais Bitcoin

A empresa de software MicroStrategy emitirá novas ações para levantar fundos e aumentar seu tesouro de Bitcoin, que já soma US$ 48 bilhões
donald trump e bitcoin

Trump quer que todo Bitcoin seja minerado nos EUA — e como fica o meio ambiente?

O governo do presidente Trump pode tornar os EUA ideais para mineradores de Bitcoin, principalmente se o país for flexível em relação às regulamentações ambientais
token do trump

Token do presidente Trump cai 75% desde a alta histórica

A queda ocorre mesmo com Donald Trump promovendo o token na rede Truth Social
Imagem da matéria: CAKE decola mais de 110% na semana; entenda por quê

CAKE decola mais de 110% na semana; entenda por quê

Pancake Swap, exchange descentralizada que criou o token CAKE, é o maior protocolo baseada na BNB Chain e vem aproveitando o hype das memecoins