DeepSeek é o novo e badalado modelo de IA que está tomando o mundo de assalto. A startup chinesa impressionou o setor de tecnologia com seu robusto modelo de linguagem (LLM), construído em tecnologia de código aberto.
O DeepSeek também causou impacto na indústria de IA, mostrando que é possível desenvolver uma IA poderosa gastando milhões em hardware e treinamento, quando empresas americanas como OpenAI, Google e Microsoft investiram bilhões.
O que é DeepSeek?
DeepSeek é uma criação do investidor e empreendedor Liang Wenfeng, um cidadão chinês que estudou engenharia de informação e comunicação eletrônica na Universidade de Zhejiang.
Liang começou sua carreira em IA usando-a para negociação quantitativa, sendo cofundador do fundo de hedge High-Flyer Quantitative Investment Management, sediado em Hangzhou, China, em 2015. Em 2023, ele lançou o DeepSeek, com foco no avanço da inteligência artificial geral.
A DeepSeek lançou seu primeiro grande modelo de linguagem, DeepSeek-Coder, em 29 de novembro de 2023. Mas foi somente em 20 de janeiro de 2025, com o lançamento do DeepSeek-R1, que a empresa revolucionou o setor de IA.
Com uma equipe de apenas 200 pessoas e um orçamento de US$ 6 milhões, a empresa lançou seu modelo gratuito e de código aberto, que estava no mesmo nível do muito alardeado modelo GPT 01 da OpenAI — um projeto que custou até US$ 600 milhões e levou cerca de 3.500 pessoas e dois anos para ser construído.
Ao contrário das grandes empresas de tecnologia com grandes folhas de pagamento no ocidente, a DeepSeek otimizou sua contratação para focar em estudantes recém-formados:
“Três a cinco anos de experiência de trabalho é o máximo, e aqueles com mais de oito anos de experiência de trabalho são basicamente rejeitados”, disse um headhunter ao 36kr , um popular site de tecnologia chinês.
E, enquanto o OpenAI e outros modelos de IA dominantes estavam disponíveis principalmente como produtos de assinatura, o código do DeepSeek é de código aberto, disponível para análise pública e pode ser baixado para um computador local por meio do AI playground Huggingface, ou como um aplicativo de telefone, gratuitamente.
Sua tecnologia subjacente foi considerada um grande avanço em IA e seu lançamento causou impacto no setor de tecnologia dos EUA, eliminando US$ 1 trilhão em valor em um dia.
O que há de tão especial no DeepSeek?
O sucesso do DeepSeek vem de sua abordagem ao design e treinamento de modelos. Como um supercomputador massivamente paralelo que divide tarefas entre muitos processadores para trabalhar nelas simultaneamente, o sistema Mixture-of-Experts do DeepSeek ativa seletivamente apenas cerca de 37 bilhões de seus 671 bilhões de parâmetros para cada tarefa.
Essa abordagem melhora significativamente a eficiência, reduzindo os custos computacionais e ainda fornecendo desempenho de primeira linha em todos os aplicativos.
O DeepSeek aprimora seu processo de treinamento usando Group Relative Policy Optimization (Otimização de política relativa de grupo), uma técnica de aprendizado por reforço que melhora a tomada de decisão ao comparar as escolhas de um modelo com aquelas de agentes de aprendizado semelhantes. Isso permite que a IA refine seu raciocínio de forma mais eficaz, produzindo dados de treinamento de maior qualidade.
A nova IA também demonstrou um comprometimento com a acessibilidade de código aberto ao lançar seus modelos sob a licença MIT, que permite aos usuários baixar, implantar e personalizar o modelo de IA, distinguindo-o dos concorrentes que mantêm sistemas fechados e proprietários.
Leia Também
O código aberto também permite que os desenvolvedores aprimorem e compartilhem seu trabalho com outros que podem então desenvolver esse trabalho em um ciclo infinito de evolução e melhoria.
O desenvolvimento do DeepSeek é auxiliado por um estoque de chips Nvidia A100 combinados com hardware mais barato. Algumas estimativas colocam o número de chips Nvidia aos quais o DeepSeek tem acesso em cerca de 50.000 GPUs, em comparação com os 500.000 da OpenAI usados para treinar o ChatGPT.
Reações ao DeepSeek
Muitos tecnólogos de IA elogiaram o modelo poderoso, eficiente e de baixo custo do DeepSeek, enquanto os críticos levantaram preocupações sobre a segurança da privacidade dos dados.
“Estamos vivendo em uma linha do tempo em que uma empresa não americana está mantendo viva a missão original da OpenAI — pesquisa verdadeiramente aberta e de fronteira que empodera a todos. Não faz sentido”, escreveu o gerente sênior de pesquisa da Nvidia, Dr. Jim Fan, no X. “O resultado mais divertido é o mais provável.”
Até o CEO da OpenAI, Sam Altman, reconheceu que o DeepSeek é impressionante. “Obviamente, entregaremos modelos muito melhores e também é realmente revigorante ter um novo concorrente!”, disse ele no X.
Dias depois, porém, a empresa alegou ter encontrado evidências de que a nova IA usou modelos proprietários da OpenAI para treinar seu próprio modelo rival.
Os críticos também levantaram questões sobre os termos de serviço da DeepSeek, práticas de segurança cibernética e potenciais laços com o governo chinês.
Outros destacaram a extensa quantidade de dados de usuários coletados pela DeepSeek, incluindo modelos de dispositivos, sistemas operacionais, padrões de pressionamento de teclas e endereços IP — dados armazenados nos servidores da empresa chinesa, de acordo com a política de privacidade da empresa .
“A privacidade é um problema porque é a China. É sempre sobre coletar dados de usuários. Então, cuidado, usuário”, disse ao Decrypt Kevin Surace, CEO da desenvolvedora de software de IA Appvance. “Isso forçará todos a repensar como treinamos modelos e quanta energia é necessária para inferência.”
O que o futuro reserva para o DeepSeek?
A rápida ascensão do DeepSeek desafia o domínio dos gigantes da tecnologia ocidentais e levanta questões significativas sobre o futuro da IA: quem a constrói, quem a controla e quão aberta e acessível ela deve ser para todos.
Mas ainda há dúvidas sobre as implicações de longo prazo do DeepSeek e se o presidente dos EUA, Donald Trump, responderá ao aparente domínio repentino da China no setor de IA com uma proibição no estilo TikTok.
A High-Flyer deturpou seu uso de GPUs para fazer o DeepSeek parecer mais eficiente do que realmente é? O lançamento público repentino do DeepSeek foi programado para derrubar as ações da Nvidia em benefício de investidores bem posicionados?
À medida que os concorrentes, incluindo Meta e Perplexity AI, se esforçam para se adaptar à metodologia da DeepSeek, o impacto total dessa inovação em IA permanece incerto. Mas uma coisa é clara: a DeepSeek abalou a indústria de tecnologia ao provar mais uma vez que, às vezes, as restrições de recursos forçam inovações e que uma tecnologia poderosa pode ser construída sem etiquetas de preços multibilionárias.
* Traduzido e editado com autorização do Decrypt.
- Você tem dúvidas de como montar uma carteira estratégica? O MB quer ajudar você com um portfólio pronto, com as principais criptomoedas relacionadas à inteligência artificial. Clique aqui para responder uma pesquisa e ajudar o MB nesta construção.