A nova Inteligência Artificial que vai concorrer com ChatGPT e Bard

A Claude 2 lida muito melhor com contexto e informações longas do que seus concorrentes, mas “delira” sobre o preço do Bitcoin

Decrypt

22 jul, 2023 16:05

A Anthropic, a empresa de Inteligência Artificial (AI, no inlgês) lançada por ex-pesquisadores da OpenAI, revelou nesta semana o seu chatbot atualizado, Claude 2, voltado diretamente para rivalizar com o ChatGPT e o Google Bard.

Vindo apenas cinco meses após a estreia do modelo Claude original, seu sucessor apresenta respostas mais longas, raciocínio diferenciado e desempenho superior, pontuando de forma impressionante em testes de leitura e redação.

O Claude 2 foi caracterizado pela empresa como uma potência de AI capaz de digerir até 100.000 tokens, aproximadamente o equivalente a 75.000 palavras, em um único prompt. Este é um salto dramático em relação ao limite anterior de 9.000 tokens do primeiro Claude, e representa uma vantagem única: a capacidade da AI de fornecer respostas de maneira mais contextual e aprimorada.

O novo modelo fez progressos significativos em vários campos, incluindo direito, matemática e codificação, avaliados por meio de testes padronizados. De acordo com a Anthropic, Claude 2 obteve 76,5% na seção de múltipla escolha do exame da Ordem (GPT-3,5 alcançou 50,3%) e obteve uma pontuação superior a 90% dos candidatos à pós-graduação nos exames de leitura e redação do GRE.

Claude 2 também obteve 71,2% no teste de codificação Codex HumanEval Python e 88,0% nos problemas de matemática do ensino fundamental GSM8k, revelando suas habilidades computacionais avançadas.

O Claude da Anthropic foi projetado com uma “constituição” única, um conjunto de regras inspiradas na Declaração Universal dos Direitos Humanos, que permite que ele se aperfeiçoe sem feedback humano, identifique comportamento impróprio e adapte sua própria conduta.

Comparação entre Claude 2, ChatGPT e Google Bard

Mas como isso se compara aos dois reis da colina, ChatGPT e o novo Bard do Google? Vamos começar com o quão bem eles se comparam às especificações.

Preço:

ChatGPT: Gratuito para quem usa a versão GPT-3.5. Aqueles que quiserem usar a versão mais poderosa rodando GPT-4 terão que pagar US$ 20 por mês pela versão ChatGPT Plus.

Claude: Gratuito

Google Bard: Gratuito

Disponibilidade:

ChatGPT: é o mais amplamente disponível dos três.

Google Bard: está disponível em menos países que o ChatGPT.

Claude: temporariamente disponível nos EUA e no Reino Unido.

Privacidade:

ChatGPT: permite que os usuários excluam suas interações. Não suporta navegação por VPN.

Google Bard: tem a opção de excluir automaticamente as interações em 18 meses. Não permite que os usuários recuperem interações anteriores. Suporta VPNs, o que o torna disponível virtualmente em qualquer parte do mundo, contornando restrições políticas.

Claude: permite que os usuários excluam suas conversas. Suporta navegação VPN.

Idiomas suportados:

ChatGPT: suporta mais de 80 idiomas.

Google Bard: suporta inglês, japonês e coreano.

Claude: suporta vários idiomas difundidos, como inglês, espanhol, português, francês, mandarim, alemão, entre outros. Se ele não reconhecer um idioma (ou a entrada tiver muitos erros gramaticais), ele fornecerá uma frase introdutória e responderá em inglês.

Lidar com contexto:

ChatGPT: a versão gratuita suporta 7.096 tokens de contexto, ChatGPT Plus (GPT-4) suporta 8.192 tokens. O OpenAI oferece uma versão que suporta tokens de 32K, mas não é usado pelo ChatGPT.

Google Bard: suporta 8.196 tokens de contexto.

Claude: Suporta 100.000 tokens de contexto — não é um erro de digitação.

Características:

ChatGPT: a versão gratuita não possui recursos adicionais. O GPT Plus oferece uma loja de plug-ins, um interpretador de código e um recurso de navegação na Web temporariamente pausado desenvolvido pelo Microsoft Bing. Fornece suporte à API.

Google Bard: O chatbot ainda está em fase experimental, mas terá uma loja de plug-ins e integração com o Google Suite. Fornece acesso limitado à sua API.

Claude: O chatbot pode ser adicionado ao Slack e lidar com diferentes tarefas, como resumir tópicos, fornecer sugestões, fazer brainstorming, etc. Fornece suporte à API.

A batalha dos prompts: ChatGPT vs Bard vs Claude

O Decrypt usou o mesmo prompt para comparar os resultados obtidos pelos três chatbots.

Compreensão de línguas estrangeiras

Primeiro, pedimos o significado de uma gíria espanhola comum. Claude provou ser mais cuidadoso e preciso com sua explicação, ChatGPT forneceu uma explicação suficientemente boa, mas o Google Bard se recusou a responder, argumentando que não sabia falar espanhol.

No entanto, uma vez que reformulamos nosso prompt de “o que isso significa” para “qual é o equivalente em inglês”, ele forneceu uma resposta melhor do que a fornecida pelo ChatGPT, embora menos extensa do que a de Claude AI.

Resposta da AI Claude 2 no teste sobre compreensão de idiomas, contra ChatGPT e Google Bard — (Decrypt)

Atualização das informações

Então, perguntamos aos modelos o preço do Bitcoin (BTC) hoje. Isso não apenas testa os recursos de navegação na web, mas também avalia quanta informação cada um fornece com base em um único pedido.

O ChatGPT falhou. Não está conectado à internet, portanto não pode fornecer informações atualizadas. Claude também não tem conexão com a internet. Ao contrário do ChatGPT, no entanto, ele alucinou uma resposta com informações incorretas. Se um usuário perguntasse algo presumindo que Claude tem uma conexão com a Internet, ele receberia uma resposta errada que pareceria correta. O Google Bard forneceu as informações corretas.

Resposta do Claude 2 sobre o preço do Bitcoin. Delirando. — (Decrypt)

Lidar com o contexto

Em seguida, testamos os modelos em sua capacidade de lidar com grandes blocos de texto. Usamos a Bíblia como exemplo e copiamos todo o texto de Gênesis 1:1 a Êxodo 25:39 (quase 62 mil palavras). Em seguida, fizemos uma pergunta muito específica da história fornecida no texto.

O único modelo capaz de fornecer uma resposta foi Claude 2, como era de se esperar. Demorou cerca de 2 minutos para processar o prompt, mas forneceu uma resposta precisa. Usamos marcadores específicos para garantir que não era trapaça e que estava de fato analisando o texto, e ele provou ser bom para a tarefa.

Pergunta sobre texto da Bíblia para a Inteligência Artificial Claude 2. — (Decrypt)

Habilidades não verbais

Por fim, pedimos aos modelos que lidassem com algumas tarefas matemáticas. AI LLMs não são realmente projetados para fazer isso, e ChatGPT Plus com GPT-4 é provavelmente a melhor opção entre as três com seu interpretador de código.

No entanto, testamos os três modelos e pedimos a eles que criassem um plano de pagamento para uma pessoa que está tentando quitar suas dívidas de cartão de crédito. Também pedimos aos modelos que classificassem quais cartões deveriam ser usados e quais deveriam ser evitados.

Claude 2 forneceu as respostas mais abrangentes em termos do plano. No entanto, cometeu um erro e nos recomendou priorizar os gastos com o cartão de maior juros.

O interpretador de código do ChatGPT forneceu uma resposta em que pagamos a mais em um dos cartões, o que não é muito útil se alguém tiver dívidas em outros cartões.

O GPT 3.5 não forneceu resultados precisos, exigindo que pagássemos mais dinheiro do que realmente tínhamos disponível.

Google Bard foi bastante genérico. Ele seguiu o caminho seguro e não forneceu nenhum número, basicamente descrevendo o que é conhecido como método da avalanche de dívidas.

Forças e fraquezas

Claude 2:

Pontos fortes: Claude 2 tem uma capacidade impressionante de lidar com grandes contextos de até 100.000 tokens. Ele exibe desempenho superior em vários campos, como direito, matemática e codificação, com pontuações altas em testes padronizados. Ele pode se autoaprimorar e se adaptar sem feedback humano e oferece suporte à navegação VPN. O chatbot também pode ser adicionado ao Slack para manipulação de tarefas e fornece suporte à API.
Fraquezas: Está temporariamente disponível apenas nos EUA e no Reino Unido. Claude 2 não tem conexão com a Internet e pode fornecer informações incorretas se questionado sobre dados atuais do mundo real. Ele pode cometer erros em tarefas complexas e soar muito convincente sobre isso.

ChatGPT:

Pontos fortes: ChatGPT é o mais amplamente disponível dos três modelos, suportando mais de 80 idiomas. Ele também oferece suporte a API e uma loja de plug-ins na versão ChatGPT Plus.
Fraquezas: Possui recursos limitados ao lidar com contexto em comparação com Claude 2. A versão gratuita não oferece recursos adicionais e é muito mais limitada e de menor qualidade do que a versão paga. Seu recurso de navegação na web está temporariamente pausado e não pode fornecer dados em tempo real. Em algumas tarefas complexas, pode gerar resultados inadequados.

Bard:

Pontos fortes: Bard suporta navegação VPN. Ele pode fornecer dados em tempo real devido à sua conexão com a internet. A Bard também planeja se integrar ao Google Suite e oferecer uma loja de plug-ins.
Fraquezas: Bard suporta menos idiomas do que ChatGPT. Seu acesso à API é limitado e seus recursos de manipulação de contexto são menores do que Claude 2. As respostas de Bard podem ser genéricas e inúteis em algumas tarefas complexas — o que é uma troca razoável se o usuário quiser reduzir o risco de “delírios”.

Conclusão

Agora que o campo de AI LLMs e chatbots tem mais opções disponíveis, não é necessário necessariamente se tornar um fanboy do ChatGPT ou entrar no campo somente do Google.

Se você está hesitante em pagar US$ 20 pelo ChatGPT Plus, considere usar o Claude. Ele oferece funcionalidade comparável ao GPT-4 e provavelmente produzirá resultados superiores ao GPT-3.5, que é a versão disponível no ChatGPT gratuito — e será uma escolha melhor do que o Google Bard para a maioria dos usuários.

Um recurso adicional do Claude 2 é a capacidade de analisar PDFs e arquivos com muitas extensões. Você pode simplesmente arrastar e soltar os arquivos no programa, semelhante aos plugins pagos disponíveis na assinatura GPT Plus. Então, antes de decidir pagar pelo ChatGPT 4, você pode querer experimentar o Claude. Pode potencialmente poupar algum dinheiro.

No entanto, cada opção tem pontos fortes e fracos que tornam cada robô mais atraente para necessidades específicas. Claude lida com grandes quantidades de dados, mas pode não ser a melhor escolha para tarefas que exigem dados em tempo real.

O ChatGPT é mais criativo, o que é perfeito para tarefas que exigem suporte a um idioma específico (e sua loja de plugins é muito boa se você estiver disposto a pagar o preço). Por outro lado, o Bard é mais factual, preciso e aproveita sua conectividade com a Internet, mas pode não ser o melhor para tarefas criativas.

No final, por que escolher um? Você não precisa decidir qual é o melhor — você pode usar todos eles.

*Traduzido por Vini Barbosa com autorização do Decrypt.

Não perca dinheiro. No Mercado Bitcoin, você pode fazer staking de Ethereum de maneira segura e simples. Abra sua conta agora e comece a ganhar recompensas sobre seus investimentos em criptomoedas.