O ChatGPT está ficando burro, mostra novo estudo

O programa de Inteligência Artificial (AI, na sigla em inglês) ChatGPT explodiu de popularidade no final de 2022, deslumbrando as pessoas com suas habilidades de conversação semelhantes às humanas. O lançamento da versão mais recente gerou até mesmo um rali no preço de algumas criptomoedas. Mas, de acordo com um novo estudo, as habilidades do principal aplicativo de AI podem estão em declínio.

Pesquisadores de Stanford e da UC Berkeley analisaram sistematicamente diferentes versões do ChatGPT. Eles desenvolveram benchmarks rigorosos para avaliar a competência do modelo em tarefas de matemática, codificação e raciocínio visual. Os resultados do desempenho do ChatGPT ao longo do tempo não foram positivos.

Os testes revelaram uma queda surpreendente no desempenho entre as versões. Em um desafio matemático para determinar números primos, o ChatGPT resolveu 488 das 500 questões corretamente em março, uma precisão de 97,6%. No entanto, em junho, o ChatGPT só conseguiu acertar 12 questões, com uma precisão de 2,4%.

O declínio foi especialmente acentuado nas habilidades de codificação de software do chatbot.

“Para o GPT-4, o percentual de gerações de respostas que são diretamente executáveis caiu de 52% em março para 10% em junho”, concluiu a pesquisa. Estes resultados foram obtidos através da utilização da versão pura dos modelos, ou seja, não foram envolvidos plugins de interpretação de código.

Para avaliar o raciocínio, os pesquisadores aproveitaram as instruções visuais do conjunto de dados Abstract Reasoning Corpus (ARC). Mesmo aqui, embora não tão grande, ainda encontraram um declínio. “O GPT-4, em junho, cometeu erros em consultas sobre as quais estava correto em março”, diz o estudo.

Mudanças da OpenAI

O que poderia explicar o aparente rebaixamento do ChatGPT em apenas alguns meses? Os pesquisadores levantam a hipótese de que pode ser um efeito colateral de mudanças feitas pela OpenAI, a empresa criadora da tech.

Uma das causas possíveis são as alterações introduzidas para impedir o ChatGPT de responder a perguntas perigosas. No entanto, este alinhamento de segurança poderia prejudicar a utilidade do ChatGPT para outras tarefas. Os pesquisadores descobriram que o modelo agora tende a dar respostas detalhadas e indiretas em vez de respostas claras.

“O GPT-4 está piorando com o tempo, não melhorando” disse o Especialista em AI, Santiago Valderrama, no Twitter. Valderrama também levantou a possibilidade de que uma mistura de modelos “mais barata e rápida” pudesse ter substituído a arquitetura ChatGPT original.

Força-tarefa da COP29 quer aumentar impostos sobre criptomoedas

Fernando Martines
18 nov, 2024 10:28

- Criptomoedas

Verde, uma das maiores gestoras do Brasil, começa a investir em Bitcoin

Rodrigo Tolotti
12 nov, 2024 13:36

- Criptomoedas

Nubank lança nova função de troca de criptomoedas no app

Portal do Bitcoin
12 nov, 2024 14:44

- Criptomoedas

FTX processa Binance por US$ 1,7 bilhão e acusa CZ de tentar “destruir” a rival

Decrypt
12 nov, 2024 11:18

“Rumores sugerem que eles estão usando vários modelos GPT-4 menores e especializados que agem de forma semelhante a um modelo grande, mas são menos caros de executar”, ele levantou a hipótese, a qual, na visão dele, poderia acelerar as respostas para os usuários, mas reduzir a competência das entregas.

Here is an interesting theory.

For a bit more context, the June version of GPT-4 supports "Function Calling," a new feature released by OpenAI where the model has the ability to suggest calling a function to solve a problem.https://t.co/xEPEgBgVz8
— Santiago (@svpino) July 19, 2023

Outro especialista, Dr. JM Fan, também compartilhou suas ideias em uma Thread no Twitter.

“Infelizmente, mais segurança normalmente vem ao custo de menos utilidade”, escreveu ele, dizendo que estava tentando entender os resultados, vinculando-os à maneira como a OpenAI afina seus modelos.

“Meu palpite, (nenhuma evidência, apenas especulação), é que a OpenAI gastou a maioria dos esforços fazendo uma lobotomia de março a junho e não teve tempo de recuperar totalmente as outras capacidades que importam.”

Fan argumenta que outros fatores podem ter entrado em jogo, nomeadamente os esforços de redução de custos, a introdução de advertências e isenções de responsabilidade que podem “emburrecer” o modelo e a falta de feedback mais amplo da comunidade.

Embora se justifiquem testes mais abrangentes, as conclusões alinham-se com as frustrações expressas pelos usuários em relação à diminuição da coerência nos resultados outrora eloquentes do ChatGPT.

Como evitar uma maior deterioração? Alguns entusiastas defenderam modelos de código aberto como o Llama da Meta (que acabou de ser atualizado), que permitem a depuração da comunidade. O benchmarking contínuo para detectar regressões precocemente é crucial.

Por enquanto, parece que os fãs do ChatGPT terão que controlar suas expectativas. Aquela máquina doida e geradora rápida de ideias que muitos encontraram pela primeira vez parece mais domada — e talvez menos brilhante. Parece que o declínio cognitivo relacionado com a idade parece ser inevitável, até mesmo para as inteligências artificiais.

*Traduzido por Gustavo Martins com autorização do Decrypt.

Na Semana da Amizade, você pode ganhar até R$ 200 em Bitcoin com o Indique e Ganhe do MB. Indique agora a plataforma mais segura para quem você mais gosta.

O ChatGPT está ficando burro, mostra novo estudo

A SEGUIR

Por dentro dos diários de Caroline Ellison, a ex-executiva que virou peça-chave no julgamento do criador da FTX

Autor

Decrypt

Tags

COMPARTILHAR

Mudanças da OpenAI

Leia Também

Força-tarefa da COP29 quer aumentar impostos sobre criptomoedas

Verde, uma das maiores gestoras do Brasil, começa a investir em Bitcoin

Nubank lança nova função de troca de criptomoedas no app

FTX processa Binance por US$ 1,7 bilhão e acusa CZ de tentar “destruir” a rival

“Não deixem que os Estados controlem as criptomoedas”, diz Javier Milei

Coreia do Sul prende mais de 200 pessoas que deram golpe de R$ 1,2 bilhão com criptomoedas

Apenas 0,07% dos políticos brasileiros possuem criptomoedas, revela estudo

Token desaba 98% após fundador desaparecer e ignorar investidores

Garoto lucra R$ 170 mil com memecoin fraudulenta, mas investidores se vingam

Manhã Cripto: Bitcoin sobe 4,4% e atinge novo recorde de US$ 97,8 mil

Stablecoins devem ser reguladas porque impactam política monetária, afirma executivo do BC

Magic Eden vai distribuir R$ 1,8 bilhão em tokens; veja como ganhar

O ChatGPT está ficando burro, mostra novo estudo

A SEGUIR

Autor

Tags

COMPARTILHAR

Mudanças da OpenAI

Leia Também

VOCÊ PODE GOSTAR