Inteligências Artificiais que aprendem com dados de outras Inteligências Artificiais podem entrar em colapso

A Inteligência Artificial (AI, na sigla em inglês) tem sido um elemento transformador em diversas áreas como saúde, varejo, entretenimento e arte. No entanto, novas pesquisas sugerem que podemos ter atingido um ponto crítico: a aprendizagem de AI a partir de conteúdos gerados por ela mesma.

Esse “ouroboros” de Inteligência Artificial — o termo remete ao conceito de quem morde a própria cauda — pode ter consequências bastante negativas. Um grupo de pesquisa de diferentes universidades do Reino Unido emitiu um alerta sobre o que chamaram de “colapso do modelo” de AI, um processo degenerativo que pode separar completamente a nova tecnologia da realidade concreta.

Em um artigo intitulado “A Maldição da Recursão: o treinamento com dados gerados que faz com que os modelos esqueçam”, pesquisadores das universidades de Cambridge e Oxford, da Universidade de Toronto e do Imperial College em Londres explicam que o colapso do modelo de AI ocorre quando “dados gerados acabam poluindo o conjunto de treinamento da próxima geração de modelos” de AI.

“Elas [AIs] são treinadas com dados poluídos e, consequentemente, têm uma percepção distorcida da realidade”, escreveram. Em outras palavras, o conteúdo amplamente gerado por uma inteligência artificial e publicado online pode ser absorvido de volta pelos sistemas de AI, levando a distorções e imprecisões.

Esse problema foi identificado em uma variedade de modelos e ferramentas generativas de aprendizado, incluindo o Large Language Models (LLMs), o Variational Autoencoders, e o Gaussian Mixture Models.

Com o tempo, os modelos começam a “esquecer a verdadeira distribuição dos dados subjacentes”, levando a representações imprecisas da realidade, pois as informações originais se tornam tão distorcidas que deixam de se assemelhar ao mundo real.

Já existem casos em que modelos de aprendizado de máquina (machine learning em inglês) são treinados com dados gerados por AI. Por exemplo, os modelos LLMs estão sendo intencionalmente treinados com saídas do GPT-4. Da mesma forma, o DeviantArt, plataforma online para artistas, permite que obras de arte criadas por inteligência artificial sejam publicadas e usadas como dados de treinamento para novos modelos de AI.

Assim como tentar copiar ou clonar algo indefinidamente, essas práticas, de acordo com os pesquisadores, podem levar a mais casos de colapso de modelo de AI.

Diante das sérias implicações nesse sentido, o acesso à distribuição original dos dados é fundamental. Os modelos de AI precisam de dados reais produzidos por humanos para entender e simular com precisão o nosso mundo.

Novo modelo de IA promete previsões meteorológicas mais rápidas e inteligentes

Decrypt
29 mar, 2025 10:55

- Bitcoin

Bitcoin tem sido negociado como uma ação de tecnologia, diz Standard Chartered

Decrypt
24 mar, 2025 11:43

Como evitar o Colapso de Modelo de Inteligência Artificial

Existem duas principais causas para o colapso do modelo, de acordo com o artigo de pesquisa.

A primeira é o “erro de aproximação estatística”, que está relacionado ao número finito de amostras de dados. A segunda é o “erro de aproximação funcional”, que decorre da margem de erro utilizada durante o treinamento da AI não estar configurada corretamente.

Esses erros podem se acumular ao longo das gerações, causando um efeito cascata de imprecisões cada vez piores.

O artigo menciona uma “vantagem do pioneirismo” no treinamento de modelos de AI. Se conseguirmos manter o acesso à fonte original de dados gerados por humanos, poderemos evitar uma mudança prejudicial na distribuição e, assim, o colapso do modelo.

No entanto, distinguir conteúdo gerado por inteligência artificial em grande escala é um desafio assustador que pode exigir uma coordenação em toda a comunidade.

Em última análise, a importância da integridade dos dados e a influência das informações humanas na AI são tão boas quanto os dados a partir dos quais ela é construída, e a explosão de conteúdo gerado por ela pode se tornar uma faca de dois gumes para a indústria.

É “lixo entra, lixo sai” — a AI baseada em conteúdo de AI levará a máquinas muito inteligentes, mas “ilusórias”.

O que podemos esperar de uma possível reviravolta? Nossa geração de máquinas, aprendendo mais umas com as outras do que conosco, torna-se “ilusória”. Em seguida, teremos que lidar com um ChatGPT adolescente e ilusório.

*Traduzido com autorização do Decrypt.