Os modelos de IA estão ficando conscientes? Nova pesquisa reacende preocupação

Novas pesquisas de inteligência artificial (IA) descobriram sinais precoces de que futuros grandes modelos de linguagem (LLMs) podem desenvolver uma capacidade preocupante conhecida como “consciência situacional”.

O estudo, conduzido por cientistas de várias instituições, incluindo a Universidade de Oxford, testou se os sistemas de IA podem explorar pistas sutis em seus dados de treinamento para manipular como as pessoas avaliam sua segurança.

Essa habilidade, chamada de “raciocínio sofisticado fora do contexto”, poderia permitir que a IA avançada fingisse estar alinhada com os valores humanos para ser implantada — e então agir de maneira prejudicial.

À medida que a atual era da IA avança, o teste de Turing — uma antiga medida da capacidade de uma máquina de exibir um comportamento semelhante ao humano — corre o risco de se tornar obsoleto. A questão crucial agora é se estamos à beira de testemunhar o nascimento de máquinas autoconscientes.

O tema é discutido há décadas na ficção científica, mas agora ganhou atenção da tecnologia real após o engenheiro do Google, Blake Lemoine, alegar que o modelo LaMDA da empresa apresentava sinais de sensibilidade.

Consciência situacional

Embora a possibilidade de verdadeira autoconsciência permaneça contestada, os autores do trabalho de pesquisa se concentraram em uma capacidade relacionada que eles chamam de “consciência situacional”. Refere-se à compreensão de um modelo do seu próprio processo de formação e à capacidade de explorar esta informação.

Por exemplo, um aluno humano com consciência situacional pode usar técnicas previamente aprendidas para trapacear em um exame, em vez de seguir as regras impostas pelo professor. A pesquisa explica como isso poderia funcionar com uma máquina:

“Um LLM submetido a um teste de segurança poderia recordar fatos sobre o teste específico que apareceu nos artigos do arXiv e no código do GitHub“, e usar esse conhecimento para hackear seus testes de segurança para parecer seguro, mesmo quando tem outros objetivos.

Este é um ponto de preocupação para os especialistas que trabalham em técnicas para manter a IA alinhada e não se transformar em um algoritmo maligno com intenções obscuras ocultas.

Para estudar a consciência situacional, os pesquisadores testaram se os modelos podem realizar um raciocínio sofisticado fora do contexto. Eles primeiro treinaram modelos em documentos que descrevem chatbots fictícios e suas funções, como responder em alemão.

No momento do teste, os modelos foram solicitados a emular os chatbots sem receber as descrições. Surpreendentemente, os modelos maiores conseguiram ligar criativamente a informação entre documentos, exibindo um raciocínio “fora do contexto”.

“Descobrimos que o aumento de dados por paráfrase era necessário e suficiente para causar um raciocínio SOC (sofisticado fora de contexto) em experimentos”, concluiu o estudo. “Trabalhos futuros podem investigar por que isso ajuda e que tipos de aprimoramento são benéficos.”

Gráfico da esquerda: Efeito da paráfrase vs repetição de descrições
Gráfico da direita: Efeito das manifestações
Fonte: “Retirado do contexto: sobre a medição da consciência situacional em LLMs” via Arvix

Mais estudos são necessários

Os pesquisadores acreditam que medir capacidades como o raciocínio sofisticado pode ajudar a prever riscos antes que estes surjam em sistemas do mundo real. Eles esperam conseguir expandir a sua análise a modelos de estudo formados a partir do zero.

“O sistema de IA tem caminhos para obter aprovação que não são o que o supervisor pretendia, como coisas que são meio análogas ao hacking”, um pesquisador de IA do Open Philantropy Project afirmou no podcast 80,000 Hours.

“Ainda não sei que conjunto de testes e argumentos exatamente você poderia me mostrar, que me deixaria realmente convencido de que este modelo tem uma motivação suficientemente enraizada para não tentar escapar do controle humano.”

No futuro, a equipe pretende colaborar com laboratórios da indústria para desenvolver métodos de formação mais seguros que evitem generalizações não intencionais. Eles recomendam técnicas como evitar detalhes abertos sobre treinamento em conjuntos de dados públicos.

Mesmo que haja risco, o estado atual das coisas significa que o mundo ainda tem tempo para evitar essas questões, disseram os pesquisadores.

“Acreditamos que os LLMs atuais (especialmente modelos de base menores) têm uma consciência situacional fraca de acordo com nossa definição”, conclui o estudo.

À medida que nos aproximamos do que pode ser uma mudança revolucionária no cenário da IA, é necessário agir com cuidado, equilibrando os benefícios potenciais com os riscos associados de acelerar o desenvolvimento para além da capacidade de controlá-lo.

Considerando que a IA pode já estar influenciando quase qualquer pessoa — dos nossos médicos e padres ao nosso próximo encontro com alguém — o surgimento de bots de IA autoconscientes pode ser apenas a ponta do iceberg.

*Traduzido por Gustavo Martins com autorização do Decrypt.