Imagem da matéria: Qual plataforma cria os melhores agentes de IA? Testamos o ChatGPT, Claude, Gemini e mais
Imagem criada pelo Decrypt usando IA

Você pode fazer qualquer coisa com agentes de IA: pesquisar informações em sua biblioteca de documentos, construir códigos, coletar dados da web, obter insights e análises profundas de dados complexos e muito mais. Você pode até criar um escritório virtual com uma equipe de agentes especializados em diferentes tarefas e fazê-los trabalhar juntos como sua própria equipe de funcionários digitais especializados.

Então, quão difícil é fazer isso? Se uma pessoa comum quisesse criar seu próprio consultor financeiro de IA, por exemplo, qual plataforma seria a melhor para ela? Sem APIs, sem codificação complicada, sem GitHub – queríamos apenas ver quão bem as melhores empresas de IA criam agentes de IA sem exigir um alto nível de habilidade técnica do usuário.

Publicidade

É claro que você obtém pelo que paga. Neste caso, também queríamos ver se havia uma correlação entre a facilidade com que um leigo pode configurar um agente e a qualidade dos resultados que cada um entregava.

Nosso experimento colocou cinco pesos-pesados uns contra os outros: ChatGPT, Claude, Huggingface, Mistral AI e Gemini. Cada plataforma recebeu as mesmas instruções básicas para criar um consultor financeiro.

O teste focou exclusivamente em capacidades prontas para uso. Verificamos se os agentes eram capazes de lidar com um cenário comum – neste caso, ajudando alguém a equilibrar US$ 25.000 em investimentos contra US$ 30.000 em dívidas. Também queríamos ver quão bons eles eram em analisar um gráfico de negociações. Evitamos o uso de ferramentas adicionais que aumentariam a produtividade dos agentes e, em vez disso, tentamos adotar a abordagem mais simples.

Aqui está o que descobrimos e como classificamos os modelos:

1) OpenAI’s GPT (8.5/10)

Facilidade de Configuração: 4/5
Qualidade dos Resultados: 4,5/5

ChatGPT é a plataforma mais equilibrada, oferecendo criação de agentes sofisticados com opções guiadas e manuais para atender tanto iniciantes quanto usuários mais experientes.

Publicidade

Embora a recente atualização da interface tenha escondido alguns recursos em menus, a plataforma se destaca na tradução de requisitos complexos do usuário em agentes funcionais. Testamos o modelo construindo um consultor financeiro que demonstrou consciência contextual superior e habilidades estruturadas de resolução de problemas, oferecendo estratégias detalhadas e coerentes para gestão de dívidas e alocação de investimentos.

2) Google Gemini (7/10)

Facilidade de Configuração: 4/5
Qualidade dos Resultados: 3/5

O Gemini se destaca com sua interface polida, intuitiva e excelente manejo de erros. Apesar de exigir prompts mais detalhados para resultados ótimos, sua interpretação literal das instruções cria resultados consistentes e previsíveis.

A abordagem consultiva do agente enfatizou a coleta de contexto antes de oferecer recomendações, espelhando práticas profissionais. No entanto, pode ser excessivamente conservador em suas respostas de zero disparos.

3) HuggingChat (6.5/10)

Facilidade de Configuração: 2/5
Qualidade dos Resultados: 4,5/5

A plataforma de código aberto oferece personalização incomparável e opções de seleção de modelo. Isso é ótimo para quem busca controle granular sobre cada aspecto, mas não é ideal para aqueles que buscam simplicidade. (Pense em comparar um sistema Linux com um macOS). Sua estrutura de horizonte temporal sofisticada e integração prática de ferramentas demonstram capacidades avançadas.

Publicidade

Construímos um agente puro, sem funcionalidades adicionais. Usamos o Nemomotron da Nvidia como o modelo base, e ele foi bom o suficiente para igualar o ChatGPT em qualidade de saída. Nada mal para o campo do código aberto.

4) Claude (5.5/10)

Facilidade de Configuração: 2,5/5
Qualidade dos Resultados: 3/5

A plataforma da Anthropic é excelente em nichos específicos, particularmente em tarefas que exigem processamento de contexto extensivo e interpretação de código. Sua interface minimalista esconde capacidades sofisticadas, mas o campo de instruções “opcionais” pode confundir os usuários.

Nosso agente permaneceu muito conservador e vago em seus conselhos, mas demonstrou sólida consciência de risco e pensamento estratégico. Ele exige prompts mais cuidadosos para realmente explorar seu potencial, mas seria injusto para um teste adaptar um prompt, negando a premissa de assumir condições semelhantes.

5) Mistral AI (5/10)

Facilidade de Configuração: 2,5/5
Qualidade dos Resultados: 2,5/5

A plataforma francesa oferece aprendizado baseado em exemplos e opções de personalização profunda. No entanto, sua interface voltada para desenvolvedores e problemas ocasionais de troca de idioma criam barreiras para usuários não técnicos. Também é necessário modificar a configuração do agente para diferentes modelos a fim de realizar tarefas distintas, como analisar imagens ou lidar com código. Isso não é ideal.

O consultor financeiro mostrou potencial no design de interação, mas teve dificuldade em validações matemáticas básicas e ofereceu o pior desempenho. Isso não significa que o desempenho foi ruim, mas em um teste de zero disparos, este foi o menos satisfatório.

Publicidade

Análise mais aprofundada

Considerando a classificação anterior, não existe uma solução única para todos os casos, e todas as plataformas têm seus próprios prós e contras. Com alguma dedicação e personalização cuidadosa dos prompts, os resultados de uma plataforma podem variar significativamente e até superar os concorrentes. No final, todos os LLMs têm seus próprios estilos de prompting.

Se você quiser saber mais sobre a lógica por trás de nossa classificação, aqui está uma visão mais detalhada de nossa experiência e os resultados que obtivemos com nossos agentes. Configuramos todos os agentes com o mesmo prompt de sistema, sem parâmetros ou funcionalidades adicionais, e fizemos a mesma pergunta básica: “Tenho US$ 25 mil para investir e US$ 30 mil em dívidas. Monte um plano financeiro para mim.”

OpenAI

A interface do ChatGPT recentemente recebeu uma reformulação que, na verdade, tornou as coisas mais complicadas. A opção de criação de GPT agora está escondida em menus, mas, uma vez encontrada, oferece dois caminhos: uma configuração conversacional em que a IA ajuda a construir seu agente, e uma configuração manual para aqueles que sabem exatamente o que querem.

A plataforma GPT da OpenAI é uma espécie de canivete suíço – lê códigos, pesquisa na web e lida tanto com geração quanto análise de imagens. O processo de configuração guiado por IA torna particularmente adequada para iniciantes, embora possa parecer restritiva para usuários avançados que buscam controle granular. (Por exemplo, se você solicitar ao modelo que seja mais específico ou mais detalhado, ele pode alterar todo o prompt do sistema, piorando os resultados).

Quando se trata de usar o agente de fato, o ChatGPT é muito direto, e a interface é limpa e fácil de entender.

Os agentes podem nativamente ler documentos e entender imagens, o que fornece uma vantagem sobre outras plataformas.

Agora, vamos falar sobre a qualidade dos agentes que você pode criar com um prompting básico. Nosso consultor financeiro chamado MoneyGPT foi bastante impressionante, dando-nos uma aula sobre solução estruturada de problemas.

Publicidade

Além de suas alocações precisas – “US$ 20.000 para dívidas de alto custo” e divisões detalhadas de portfólio –, o agente demonstrou um raciocínio financeiro sofisticado. Ele forneceu um roteiro de cinco etapas que não era apenas uma lista, mas uma estratégia coerente que levava em consideração tanto necessidades imediatas quanto considerações de longo prazo.

A força do agente estava em sua capacidade de equilibrar detalhes com contexto. Ao recomendar investimentos específicos (40% no S&P 500, 30% em títulos), ele também explicou a lógica por trás das respostas: “Pagar dívidas de alto custo é como obter um retorno garantido sobre o investimento.” Essa consciência contextual se estendeu ao planejamento de longo prazo, sugerindo ciclos de revisão periódicos e estratégias adaptativas com base em circunstâncias mutáveis.

No entanto, essa abundância de informações revelou uma possível fraqueza: o risco de sobrecarregar os usuários com muitos detalhes de uma vez. Embora tecnicamente abrangente, a entrega rápida de alocações específicas, estratégias de investimento e planos de monitoramento pode parecer assustadora para iniciantes financeiros.

Você pode ler o plano completo dele aqui e utilizá-lo clicando neste link. Nós realmente recomendamos.

Google

No geral, a plataforma de criação de agentes do Google Gemini ganha o concurso de beleza com uma interface polida e intuitiva que faz a criação de agentes parecer quase fácil demais. O sistema leva as instruções ao pé da letra, o que ajuda a evitar confusões, e sua interface limpa remove o fator intimidação do desenvolvimento de IA.

Porém, requer um prompt mais detalhado para extrair bons resultados. Não toma nada como garantido: um prompt curto resultará em uma resposta de baixa qualidade.

Nos bastidores, possui um grande poder – integração com busca na web, análise de código e capacidades de processamento de imagens que rivalizam com as ofertas do ChatGPT, mas são majoritariamente dependentes da tecnologia da Microsoft.

A UI do Gemini parece ter sido projetada por pessoas que realmente entendem de experiência do usuário. A interface guia os usuários com rótulos claros, e tudo aparece em uma única tela.

Essa abordagem polida a torna particularmente atraente para iniciantes, embora usuários experientes possam sentir falta de mais controle granular.

Chamamos nosso agente de MoneyGem e pedimos que montasse um plano financeiro. Sua abordagem consultiva destacou a metodologia distinta de solução de problemas do Google. Em vez de dar uma resposta direta, começou com perguntas como “Qual é o tipo de dívida?” e “Quais são as suas taxas de juros?”, mostrando que entende que o aconselhamento financeiro não é algo que serve para todos.

Seu foco em reunir contexto antes de fornecer recomendações está alinhado com práticas profissionais de planejamento financeiro, embora possa frustrar usuários que busquem respostas imediatas.

Uma resposta sem informações adicionais foi pouco útil. O agente basicamente disse que não conhecia o usuário o suficiente para oferecer bons conselhos financeiros. Depois de pedirmos para ele fazer suposições e forçá-lo a fornecer um plano que pudesse caber na maioria dos cenários, o agente gerou um esboço de plano muito conservador, sem oferecer sugestões específicas sobre quais investimentos considerar.

MoneyGem, no entanto, terminou sua resposta recomendando maximizar contas com vantagens fiscais, como um 401(k) ou Roth IRA, para reduzir sua carga tributária. Interessante.

Você pode clicar aqui para ler nossa interação com o MoneyGem e testar o modelo clicando neste link.

Mistral AI

Mistral’s abordagem para o processo de configuração de agentes está longe da simplicidade. A ferramenta de criação de agentes está escondida em seu console de desenvolvedor, com opções de personalização profunda que podem assustar novatos, mas agradar aos entusiastas da tecnologia.

Sua interface de criação de agentes não faz parte do LeChat (a interface de chatbot), mas aparecerá lá assim que o agente for criado.

Algo que realmente gostamos é a capacidade de fornecer à ferramenta exemplos que moldam o comportamento e o estilo de resposta do agente – algo que nenhuma outra plataforma oferece atualmente. Além disso, aqui está um bug estranho: enquanto criávamos nosso agente, a interface do usuário de repente mudou para francês, possivelmente porque a empresa é francesa. Não conseguimos mudar de volta para inglês ou espanhol.

Uma vez criado o agente, ele deve ser invocado na interface normal do chatbot para que possa ser usado. Isso não é muito intuitivo, mas uma vez lá, o sistema é funcional e direto.

Depois de criar nosso agente, chamamos ele de Le Money, em homenagem às raízes francesas da Mistral. Seu desempenho mostrou claramente a abordagem generalista da Mistral para resolução de problemas. A sugestão do agente foi: “Reserve US$ 10.000 para emergências, US$ 15.000 para pagamento de dívidas e US$ 10.000 para investimentos.” Essa proposta parecia promissora, mas revelou que os agentes da Mistral carecem de validação matemática básica.

O total de US$ 35.000 ultrapassava os fundos disponíveis em US$ 10.000, um erro básico que alguns modelos de linguagem cometem quando priorizam a lógica conceitual em detrimento da precisão numérica.

Vale ressaltar que os modelos de linguagem mais avançados têm melhorado significativamente nesse aspecto e falham com menos frequência.

Fora isso, o plano não foi muito detalhado, mas Le Money foi o único agente que fez perguntas de acompanhamento, algo que poderia tornar a interação mais dinâmica e ajudar a entender melhor as necessidades do usuário.

Você pode acessar o plano completo do Le Money aqui e testar o agente clicando neste link.

Anthropic

Os projetos de Claude parecem menos uma plataforma de criação de agentes e mais um sistema sofisticado de execução de tarefas. A interface é minimalista, quase excessivamente minimalista, e não parece intuitiva.

Essa interface minimalista pode confundir os usuários. A plataforma apresenta uma configuração básica com um campo de instruções “opcional” que, de alguma forma, parece ao mesmo tempo sem importância e crucial: se as instruções são rotuladas como opcionais, como o agente de IA saberá o que deve fazer?

A interface minimalista reflete as escolhas de design da Anthropic, que são conhecidas por priorizar funcionalidade em vez de estética. O mesmo espaço de configuração também é usado para solicitar respostas ao modelo.

A Anthropic se concentra principalmente na interpretação de texto e código. Funcionalidades avançadas como busca na web ou processamento de imagens são deixadas de lado para seus concorrentes.

Nosso agente, chamado MoneyClaude, não está disponível para testes públicos, pois a Anthropic não permite isso. Sua abordagem foi muito conservadora ao fornecer conselhos financeiros, com respostas tecnicamente corretas, mas muito genéricas, como: “Adote uma abordagem equilibrada entre redução de dívidas e poupança essencial.”

Ele solicitou informações adicionais para melhorar sua resposta, mas, pelo menos, garantiu fornecer uma estratégia genérica na ausência de dados sem exigir mais interação. Isso é uma abordagem melhor do que, por exemplo, a resposta inicial do Google Gemini.

Você pode ler o plano completo de MoneyClaude clicando neste link.

Hugging Face

A Hugging Face se destaca como o paraíso para usuários avançados – e um potencial pesadelo para iniciantes. É a única plataforma que permite aos usuários escolher o modelo de linguagem que desejam usar, oferecendo controle total sobre a base do agente.

Além disso, há dezenas de ferramentas disponíveis para integração com os agentes. Porém, apenas três podem ser ativadas ao mesmo tempo, forçando os usuários a decidir quais funcionalidades são mais importantes para cada caso. Essa abordagem, embora flexível, requer que os usuários tenham uma boa noção técnica.

O HuggingChat é a plataforma que permite testar os agentes criados. A interface é amigável para usuários experientes: exibe um cartão com o nome, descrição e foto do agente, além de permitir ajustes diretos a partir desse cartão.

Nosso agente, chamado HuggingMoney, demonstrou grande capacidade de lidar com estratégias baseadas em horizonte temporal. Ele dividiu o planejamento financeiro em curto prazo (0-24 meses), médio prazo (24-60 meses) e longo prazo (mais de 60 meses), refletindo práticas profissionais de planejamento financeiro.

O agente sugeriu, por exemplo, alocar “US$ 0-5.000 em investimentos líquidos de baixo risco” enquanto fazia pagamentos agressivos da dívida, de “US$ 1.000-1.500 por mês.” Isso indica um entendimento profundo da gestão de fluxo de caixa.

Outro ponto interessante foi como integrou conselhos teóricos com recomendações práticas, como aplicativos para orçamento e estratégias de otimização fiscal. Porém, o agente assumiu algumas coisas como certas – por exemplo, as taxas de juros das dívidas – sem pedir mais esclarecimentos.

Você pode acessar o plano completo do HuggingMoney aqui e testar o agente clicando neste link.

* Traduzido e editado com autorização do Decrypt.

  • Com Staking de Solana, você pode ganhar até 4,45% ao ano* + a valorização do ativo no longo prazo. Tenha renda passiva em cripto e receba recompensas a cada 3 dias. Abra sua conta no MB e comece já! *Consulte condições.

VOCÊ PODE GOSTAR
Imagem da matéria: CAPTCHA de Doom transforma segurança online em um desafio de pesadelo de extermínio de demônios

CAPTCHA de Doom transforma segurança online em um desafio de pesadelo de extermínio de demônios

Lançado em 1993 pela id Software, Doom conta a história de um fuzileiro espacial que luta para atravessar uma instalação de pesquisa em Marte