O ChatGPT está ficando burro, mostra novo estudo

O programa de Inteligência Artificial (AI, na sigla em inglês) ChatGPT explodiu de popularidade no final de 2022, deslumbrando as pessoas com suas habilidades de conversação semelhantes às humanas. O lançamento da versão mais recente gerou até mesmo um rali no preço de algumas criptomoedas. Mas, de acordo com um novo estudo, as habilidades do principal aplicativo de AI podem estão em declínio.

Pesquisadores de Stanford e da UC Berkeley analisaram sistematicamente diferentes versões do ChatGPT. Eles desenvolveram benchmarks rigorosos para avaliar a competência do modelo em tarefas de matemática, codificação e raciocínio visual. Os resultados do desempenho do ChatGPT ao longo do tempo não foram positivos.

Os testes revelaram uma queda surpreendente no desempenho entre as versões. Em um desafio matemático para determinar números primos, o ChatGPT resolveu 488 das 500 questões corretamente em março, uma precisão de 97,6%. No entanto, em junho, o ChatGPT só conseguiu acertar 12 questões, com uma precisão de 2,4%.

O declínio foi especialmente acentuado nas habilidades de codificação de software do chatbot.

“Para o GPT-4, o percentual de gerações de respostas que são diretamente executáveis caiu de 52% em março para 10% em junho”, concluiu a pesquisa. Estes resultados foram obtidos através da utilização da versão pura dos modelos, ou seja, não foram envolvidos plugins de interpretação de código.

Para avaliar o raciocínio, os pesquisadores aproveitaram as instruções visuais do conjunto de dados Abstract Reasoning Corpus (ARC). Mesmo aqui, embora não tão grande, ainda encontraram um declínio. “O GPT-4, em junho, cometeu erros em consultas sobre as quais estava correto em março”, diz o estudo.

Mudanças da OpenAI

O que poderia explicar o aparente rebaixamento do ChatGPT em apenas alguns meses? Os pesquisadores levantam a hipótese de que pode ser um efeito colateral de mudanças feitas pela OpenAI, a empresa criadora da tech.

Uma das causas possíveis são as alterações introduzidas para impedir o ChatGPT de responder a perguntas perigosas. No entanto, este alinhamento de segurança poderia prejudicar a utilidade do ChatGPT para outras tarefas. Os pesquisadores descobriram que o modelo agora tende a dar respostas detalhadas e indiretas em vez de respostas claras.

“O GPT-4 está piorando com o tempo, não melhorando” disse o Especialista em AI, Santiago Valderrama, no Twitter. Valderrama também levantou a possibilidade de que uma mistura de modelos “mais barata e rápida” pudesse ter substituído a arquitetura ChatGPT original.

Manhã Cripto: Bitcoin abre semana em alta de 2,8%; Grandes investidores do Japão e EUA ganham exposição ao BTC

Saori Honorato
13 maio, 2024 08:13

- Criptomoedas

Criador de memecoin disse que não tinha mãos, então não conseguiria “puxar o tapete” — ele mentiu

Decrypt
09 maio, 2024 14:14

- Criptomoedas

Bitcoin sobe mais de 3% após dado de inflação dos EUA cair em abril

Decrypt
15 maio, 2024 10:37

- Criptomoedas

Exchange de criptomoedas Rain perde US$ 14,8 milhões em ataque hacker

Rodrigo Tolotti
14 maio, 2024 16:33

“Rumores sugerem que eles estão usando vários modelos GPT-4 menores e especializados que agem de forma semelhante a um modelo grande, mas são menos caros de executar”, ele levantou a hipótese, a qual, na visão dele, poderia acelerar as respostas para os usuários, mas reduzir a competência das entregas.

Here is an interesting theory.

For a bit more context, the June version of GPT-4 supports "Function Calling," a new feature released by OpenAI where the model has the ability to suggest calling a function to solve a problem.https://t.co/xEPEgBgVz8
— Santiago (@svpino) July 19, 2023

Outro especialista, Dr. JM Fan, também compartilhou suas ideias em uma Thread no Twitter.

“Infelizmente, mais segurança normalmente vem ao custo de menos utilidade”, escreveu ele, dizendo que estava tentando entender os resultados, vinculando-os à maneira como a OpenAI afina seus modelos.

“Meu palpite, (nenhuma evidência, apenas especulação), é que a OpenAI gastou a maioria dos esforços fazendo uma lobotomia de março a junho e não teve tempo de recuperar totalmente as outras capacidades que importam.”

Fan argumenta que outros fatores podem ter entrado em jogo, nomeadamente os esforços de redução de custos, a introdução de advertências e isenções de responsabilidade que podem “emburrecer” o modelo e a falta de feedback mais amplo da comunidade.

Embora se justifiquem testes mais abrangentes, as conclusões alinham-se com as frustrações expressas pelos usuários em relação à diminuição da coerência nos resultados outrora eloquentes do ChatGPT.

Como evitar uma maior deterioração? Alguns entusiastas defenderam modelos de código aberto como o Llama da Meta (que acabou de ser atualizado), que permitem a depuração da comunidade. O benchmarking contínuo para detectar regressões precocemente é crucial.

Por enquanto, parece que os fãs do ChatGPT terão que controlar suas expectativas. Aquela máquina doida e geradora rápida de ideias que muitos encontraram pela primeira vez parece mais domada — e talvez menos brilhante. Parece que o declínio cognitivo relacionado com a idade parece ser inevitável, até mesmo para as inteligências artificiais.

*Traduzido por Gustavo Martins com autorização do Decrypt.

Na Semana da Amizade, você pode ganhar até R$ 200 em Bitcoin com o Indique e Ganhe do MB. Indique agora a plataforma mais segura para quem você mais gosta.

O ChatGPT está ficando burro, mostra novo estudo

A SEGUIR

Por dentro dos diários de Caroline Ellison, a ex-executiva que virou peça-chave no julgamento do criador da FTX

Autor

Decrypt

Tags

COMPARTILHAR

Mudanças da OpenAI

Leia Também

Manhã Cripto: Bitcoin abre semana em alta de 2,8%; Grandes investidores do Japão e EUA ganham exposição ao BTC

Criador de memecoin disse que não tinha mãos, então não conseguiria “puxar o tapete” — ele mentiu

Bitcoin sobe mais de 3% após dado de inflação dos EUA cair em abril

Exchange de criptomoedas Rain perde US$ 14,8 milhões em ataque hacker

Donald Trump recebe compradores de seus NFTs em jantar de luxo

BNDES planeja lançar em agosto o piloto da Rede Blockchain Brasil

Justiça manda TIM pagar R$ 21 mil a cliente que teve celular clonado e perda de criptomoedas

Binance demitiu funcionário que descobriu manipulação milionária de cliente da corretora, diz jornal

Irmãos são presos por roubo de R$ 130 milhões em ataque de 12 segundos na rede Ethereum

Chainlink sobe 18% ao lançar projeto piloto em Wall Street com JP Morgan, BNY Mellon e DTCC

Bitcoin entra em onda de alta e atinge o seu maior preço desde o halving

‘101 Perguntas sobre Bitcoin’: Editora Portal do Bitcoin lança livro sobre a criptomoeda mais famosa do mundo

O ChatGPT está ficando burro, mostra novo estudo

A SEGUIR

Autor

Tags

COMPARTILHAR

Mudanças da OpenAI

Leia Também

VOCÊ PODE GOSTAR