O que é DeepSeek? O rival chinês do ChatGPT que está conquistando o mundo

O modelo de IA de baixo custo e alto poder da DeepSeek abalou a indústria global do setor e os debates sobre ética. Veja como eles fizeram isso

Decrypt

30 jan, 2025 18:03

Shutterstock

DeepSeek é o novo e badalado modelo de IA que está tomando o mundo de assalto. A startup chinesa impressionou o setor de tecnologia com seu robusto modelo de linguagem (LLM), construído em tecnologia de código aberto.

O DeepSeek também causou impacto na indústria de IA, mostrando que é possível desenvolver uma IA poderosa gastando milhões em hardware e treinamento, quando empresas americanas como OpenAI, Google e Microsoft investiram bilhões.

O que é DeepSeek?

DeepSeek é uma criação do investidor e empreendedor Liang Wenfeng, um cidadão chinês que estudou engenharia de informação e comunicação eletrônica na Universidade de Zhejiang.

Liang começou sua carreira em IA usando-a para negociação quantitativa, sendo cofundador do fundo de hedge High-Flyer Quantitative Investment Management, sediado em Hangzhou, China, em 2015. Em 2023, ele lançou o DeepSeek, com foco no avanço da inteligência artificial geral.

A DeepSeek lançou seu primeiro grande modelo de linguagem, DeepSeek-Coder, em 29 de novembro de 2023. Mas foi somente em 20 de janeiro de 2025, com o lançamento do DeepSeek-R1, que a empresa revolucionou o setor de IA.

Com uma equipe de apenas 200 pessoas e um orçamento de US$ 6 milhões, a empresa lançou seu modelo gratuito e de código aberto, que estava no mesmo nível do muito alardeado modelo GPT 01 da OpenAI — um projeto que custou até US$ 600 milhões e levou cerca de 3.500 pessoas e dois anos para ser construído.

Ao contrário das grandes empresas de tecnologia com grandes folhas de pagamento no ocidente, a DeepSeek otimizou sua contratação para focar em estudantes recém-formados:

“Três a cinco anos de experiência de trabalho é o máximo, e aqueles com mais de oito anos de experiência de trabalho são basicamente rejeitados”, disse um headhunter ao 36kr , um popular site de tecnologia chinês.

E, enquanto o OpenAI e outros modelos de IA dominantes estavam disponíveis principalmente como produtos de assinatura, o código do DeepSeek é de código aberto, disponível para análise pública e pode ser baixado para um computador local por meio do AI playground Huggingface, ou como um aplicativo de telefone, gratuitamente.

Sua tecnologia subjacente foi considerada um grande avanço em IA e seu lançamento causou impacto no setor de tecnologia dos EUA, eliminando US$ 1 trilhão em valor em um dia.

O que há de tão especial no DeepSeek?

O sucesso do DeepSeek vem de sua abordagem ao design e treinamento de modelos. Como um supercomputador massivamente paralelo que divide tarefas entre muitos processadores para trabalhar nelas simultaneamente, o sistema Mixture-of-Experts do DeepSeek ativa seletivamente apenas cerca de 37 bilhões de seus 671 bilhões de parâmetros para cada tarefa.

Essa abordagem melhora significativamente a eficiência, reduzindo os custos computacionais e ainda fornecendo desempenho de primeira linha em todos os aplicativos.

O DeepSeek aprimora seu processo de treinamento usando Group Relative Policy Optimization (Otimização de política relativa de grupo), uma técnica de aprendizado por reforço que melhora a tomada de decisão ao comparar as escolhas de um modelo com aquelas de agentes de aprendizado semelhantes. Isso permite que a IA refine seu raciocínio de forma mais eficaz, produzindo dados de treinamento de maior qualidade.

A nova IA também demonstrou um comprometimento com a acessibilidade de código aberto ao lançar seus modelos sob a licença MIT, que permite aos usuários baixar, implantar e personalizar o modelo de IA, distinguindo-o dos concorrentes que mantêm sistemas fechados e proprietários.

O código aberto também permite que os desenvolvedores aprimorem e compartilhem seu trabalho com outros que podem então desenvolver esse trabalho em um ciclo infinito de evolução e melhoria.

O desenvolvimento do DeepSeek é auxiliado por um estoque de chips Nvidia A100 combinados com hardware mais barato. Algumas estimativas colocam o número de chips Nvidia aos quais o DeepSeek tem acesso em cerca de 50.000 GPUs, em comparação com os 500.000 da OpenAI usados para treinar o ChatGPT.

Reações ao DeepSeek

Muitos tecnólogos de IA elogiaram o modelo poderoso, eficiente e de baixo custo do DeepSeek, enquanto os críticos levantaram preocupações sobre a segurança da privacidade dos dados.

“Estamos vivendo em uma linha do tempo em que uma empresa não americana está mantendo viva a missão original da OpenAI — pesquisa verdadeiramente aberta e de fronteira que empodera a todos. Não faz sentido”, escreveu o gerente sênior de pesquisa da Nvidia, Dr. Jim Fan, no X. “O resultado mais divertido é o mais provável.”

Até o CEO da OpenAI, Sam Altman, reconheceu que o DeepSeek é impressionante. “Obviamente, entregaremos modelos muito melhores e também é realmente revigorante ter um novo concorrente!”, disse ele no X.

Dias depois, porém, a empresa alegou ter encontrado evidências de que a nova IA usou modelos proprietários da OpenAI para treinar seu próprio modelo rival.

Os críticos também levantaram questões sobre os termos de serviço da DeepSeek, práticas de segurança cibernética e potenciais laços com o governo chinês.

Outros destacaram a extensa quantidade de dados de usuários coletados pela DeepSeek, incluindo modelos de dispositivos, sistemas operacionais, padrões de pressionamento de teclas e endereços IP — dados armazenados nos servidores da empresa chinesa, de acordo com a política de privacidade da empresa .

“A privacidade é um problema porque é a China. É sempre sobre coletar dados de usuários. Então, cuidado, usuário”, disse ao Decrypt Kevin Surace, CEO da desenvolvedora de software de IA Appvance. “Isso forçará todos a repensar como treinamos modelos e quanta energia é necessária para inferência.”

O que o futuro reserva para o DeepSeek?

A rápida ascensão do DeepSeek desafia o domínio dos gigantes da tecnologia ocidentais e levanta questões significativas sobre o futuro da IA: quem a constrói, quem a controla e quão aberta e acessível ela deve ser para todos.

Mas ainda há dúvidas sobre as implicações de longo prazo do DeepSeek e se o presidente dos EUA, Donald Trump, responderá ao aparente domínio repentino da China no setor de IA com uma proibição no estilo TikTok.

A High-Flyer deturpou seu uso de GPUs para fazer o DeepSeek parecer mais eficiente do que realmente é? O lançamento público repentino do DeepSeek foi programado para derrubar as ações da Nvidia em benefício de investidores bem posicionados?

À medida que os concorrentes, incluindo Meta e Perplexity AI, se esforçam para se adaptar à metodologia da DeepSeek, o impacto total dessa inovação em IA permanece incerto. Mas uma coisa é clara: a DeepSeek abalou a indústria de tecnologia ao provar mais uma vez que, às vezes, as restrições de recursos forçam inovações e que uma tecnologia poderosa pode ser construída sem etiquetas de preços multibilionárias.

* Traduzido e editado com autorização do Decrypt.

Você tem dúvidas de como montar uma carteira estratégica? O MB quer ajudar você com um portfólio pronto, com as principais criptomoedas relacionadas à inteligência artificial. Clique aqui para responder uma pesquisa e ajudar o MB nesta construção.