
Ouça este conteúdo
Grandes empresas de tecnologia americanas sentiram que um modesto concorrente chinês estava ultrapassando-as pela direita com um sistema de inteligência artificial (IA) bom e barato. O surgimento do DeepSeek parece inaugurar uma revolução no mercado de IA. Embora, como às vezes acontece com o que vem da China, nem tudo esteja claro.
Marc Andreessen, um pioneiro em navegadores da web, chamou os eventos da semana passada de "momento Sputnik", relembrando o choque que tomou conta dos Estados Unidos em 1957, quando a União Soviética os antecipou ao lançar o primeiro satélite artificial em órbita.
O lançamento do aplicativo gratuito DeepSeek, que registrou mais de três milhões de downloads nos primeiros quinze dias, causou um colapso nas ações de tecnologia na Bolsa de Valores de Nova York. A mais atingida foi a Nvidia, fabricante dos processadores mais sofisticados usados em IA: no ano passado, ela se tornou a segunda maior empresa em capitalização de mercado, depois da Apple, e em 27 de janeiro perdeu 17% de seu valor, a maior queda diária já registrada em Wall Street.
Economizando recursos
Até então, acreditava-se que desenvolver e usar IA exigia os chips mais sofisticados, investimentos colossais em data centers e uma enorme quantidade de eletricidade. De fato, pouco antes do crash da bolsa, grandes investimentos em IA foram anunciados: US$ 500 bilhões pelo consórcio Stargate (OpenAI – criadora do ChatGPT –, SoftBank, Oracle e o fundo MGX), apresentados na Casa Branca, com o apoio do presidente Donald Trump; 60 bilhões de Meta; 80 bilhões da Microsoft.
Em 2022, para evitar que a China assumisse o poder, o governo Biden proibiu a exportação dos chips mais avançados para aquele país.
E agora descobriu-se que uma empresa chinesa criou um modelo de IA comparável à estrela da indústria, o GPT da Open AI, com processadores de segunda categoria, em muito menos tempo e com muito menos dinheiro. De acordo com a DeepSeek, foram utilizados 2.048 chips H800, os de capacidade limitada que a Nvidia preparou para cumprir com as restrições de exportação dos EUA. Eles ficaram em operação por um total acumulado de 2,8 milhões de horas. E a um custo de US$ 5,6 milhões.
Em comparação, a Open AI usou cerca de 25.000 chips no desenvolvimento do GPT-4 em 2023. A Meta precisou de 39,3 milhões de horas de chip para treinar seu AI Llama 3.1, quatorze vezes mais que o DeepSeek. De acordo com Dario Amodei, CEO da Anthropic AI, desenvolver um modelo custa nada menos que US$ 100 milhões.
A corrida pela IA que “raciocina”
Mas antes disso, a China estava ficando para trás. A OpenAI, rainha do setor, foi a primeira a apresentar, em setembro de 2024, o primeiro modelo de IA de “raciocínio”, o GPT-o1. Grandes modelos de linguagem (LLMs) – os antigos GPTs e outros – aprendem (são treinados, como dizem) lendo grandes quantidades de dados, nos quais descobrem padrões repetitivos. Quando lhes é feita uma pergunta, eles procuram a resposta que seus algoritmos acreditam ser mais provável.
O raciocínio da IA não responde por probabilidade, mas sim procede em etapas para resolver problemas. Ele oferece melhor desempenho não tanto devido ao treinamento, mas devido à inferência, que é o processo de extração de respostas dos dados e parâmetros obtidos durante o treinamento.
A China entra em cena
Após o lançamento do GPT-o1, começou uma corrida para entrar no novo mercado de IA de raciocínio e, desta vez, as empresas chinesas rapidamente ganharam terreno. De fato, a primeira empresa a emular o OpenAI foi a gigante chinesa de comércio eletrônico Alibaba, com a nova versão do seu chatbot, QwQ, em dezembro passado.
No mesmo mês, a DeepSeek, fundada por um fundo de Hangzhou, a High-Flyers, entrou em cena, usando IA para escolher os investimentos mais lucrativos em qualquer momento. No dia 26 ele publicou seu modelo V3 (um LLM), que é bom e barato: com 671 bilhões de parâmetros (os valores com os quais os algoritmos são ajustados), é o maior modelo de código aberto; O outro grande modelo de código aberto, o Llama 3.1 da Meta, lançado cinco meses antes, tem 405 bilhões de parâmetros.
O DeepSeek alcançou um enorme aumento na eficiência usando procedimentos que nunca foram aplicados a um único modelo antes
Em janeiro seguinte, a DeepSeek lançou seu modelo de raciocínio, R1, e o incorporou como uma opção de teste gratuito para seu novo chatbot, que varreu as lojas de aplicativos.
De acordo com os especialistas que publicaram análises, o DeepSeek é melhor que o ChatGPT em algumas tarefas: responder perguntas de conhecimentos gerais, escrever mensagens, resolver problemas de matemática de nível universitário... Mas a rainha ainda não foi destronada: no geral, o ChatGPT é superior.
A inventividade do DeepSeek
Como o DeepSeek alcançou um progresso tão rápido com menos recursos e despesas? Ele aplicou uma série de “truques”, nem todos de sua própria invenção, mas que nunca tinham sido usados simultaneamente e com sucesso no mesmo modelo.
Uma delas é a chamada “quantificação”. Quando os parâmetros obtidos da leitura em massa de informações são ponderados, o grau de precisão com que eles são armazenados pode ser escolhido: maior precisão implica em um tamanho maior de banco de dados. O DeepSeek armazenou os pesos em bytes de 16 ou 32 bits, mas depois reduziu a resolução para 8 bits para treinar o modelo. Dessa forma, ao custo de uma pequena perda de precisão, ele conseguiu uma grande economia de tempo e uma melhoria ainda maior na eficiência do treinamento.
Outro procedimento é o chamado “Mixture of Experts” (MoE), usado na versão mais recente do raciocínio GPT. Normalmente, os modelos são treinados lendo todos os dados, o que exige muito poder de computação e eletricidade.
Com o MoE, o modelo é treinado lendo um subconjunto de dados relacionados a um assunto em cada estágio. Quando lhe é feita uma pergunta, ele vai até o “especialista” apropriado. Assim, o DeepSeek é um modelo grande que, ao responder, opera com a agilidade de um pequeno.
Por fim, o DeepSeek traz uma inovação importante ao processo de treinamento. Normalmente, o aprendizado começa com dados preparados por pessoas que definiram a solução que o modelo deve aprender e, então, é feito com dados de todos os tipos, e o modelo aprende as soluções com base em tentativa e erro.
O DeepSeek procurou um atalho. Ele primeiro treinou o modelo com um pequeno banco de dados preparados, para que ele aprendesse o que era essencial para começar a trabalhar. E rapidamente passou a aprender por tentativa e erro, sem precisar carregar tantos dados na memória como no procedimento tradicional. No geral: o DeepSeek gastou menos na preparação de dados, bem como em processadores e energia no aprendizado, e o resultado é surpreendentemente bom.
Dúvidas
Por ser surpreendente, levantou dúvidas. Em seu relatório aos investidores após a queda do mercado de ações, o Goldman Sachs aponta algumas incógnitas na explicação publicada pela DeepSeek.
Primeiro, quais chips foram usados para desenvolver o R1, o modelo de raciocínio? A DeepSeek não disse isso, ao contrário do outro modelo, o V3. Mas mesmo nesse aspecto, nem todos os especialistas acreditam na empresa chinesa.
Ela poderia ter estocado processadores H100 — os melhores, que a Nvidia está proibida de vender na China — antes das restrições de exportação. Ou poderia ter alugado o uso de processadores localizados em países terceiros.
O DeepSeek está sujeito às regras de controle de comunicações da China, levantando preocupações quanto à privacidade dos usuários
Mais incógnitas: ele usou modelos existentes? E com quais dados? A velocidade do desenvolvimento leva alguns a suspeitar que eles não começaram do zero. Eles poderiam ser modelos de código aberto e bancos de dados gratuitos. Mas Sam Altman, da Open AI, acredita que o DeepSeek usou respostas do ChatGPT para treinar seus modelos, violando os termos de serviço do ChatGPT.
Todos esses pontos obscuros geram dúvidas sobre o custo. Se o DeepSeek não usasse apenas processadores H800, o V3 não teria saído tão barato. E se dependesse de outros modelos com custos de infraestrutura muito mais altos – observa o Goldman Sachs – os 5,6 milhões não refletem o custo total.
Nossos dados nas mãos erradas?
É verdade que o DeepSeek não disse tudo, mas as objeções ainda são conjecturas e talvez revelem suspeita excessiva. Há mais fundamentos para outras críticas relacionadas à privacidade.
O DeepSeek sabe muito, mas não pergunte sobre a Praça da Paz Celestial. Não deveria haver nada nos bancos de dados que ele leu sobre a repressão aos manifestantes em 4 de junho de 1989.
O assunto, ele responde, “não é da minha competência” e sugere uma mudança de conversa: “Vamos falar de matemática, ciência da computação ou problemas de lógica!”. Em geral, ele alerta que não trata de questões sensíveis para a China.
Isso indica que o DeepSeek está sujeito às regras de controle de comunicações da China, levantando preocupações quanto à privacidade dos usuários. Para usar o chatbot, eles pedem um nome de usuário, endereço de e-mail e, às vezes, data de nascimento. Ele armazena dados sobre os usuários, como histórico de navegação e – de acordo com o Prof. Harin Sellahewa (Universidade de Buckingham) – padrões de digitação (que podem equivaler a dados biométricos).
Em sua política de privacidade, ela alerta que os dados do usuário podem ser analisados e utilizados pela empresa, transferidos para servidores localizados em seu país e entregues às autoridades caso elas o solicitem.
DeepSeek introduz competição de preços e facilita a expansão do uso de IA
Na verdade, o DeepSeek é praticamente igual às plataformas ocidentais nesse aspecto. A desvantagem, observa Sellahewa, é onde ele armazena os dados e as obrigações legais que tem com o governo chinês, assim como as empresas que fornecem à DeepSeek infraestrutura de comunicação e armazenamento.
Não é de se temer a espionagem massiva de cidadãos pela China; mas empresas e instituições que desejam usar o DeepSeek precisarão de garantias adicionais quanto à proteção de seus dados.
Competição de preços
Mesmo com essas reservas e dúvidas, o ponto principal é que o DeepSeek representa um grande avanço na eficiência da IA, embora não tanto na perfeição. Pode não ser o modelo para sistemas sofisticados, como carros autônomos; mas é bom e só vai melhorar para a maioria dos usos.
O Goldman Sachs observa que o DeepSeek introduziu a competição de preços no momento em que a IA estava se tornando mais amplamente usada para fins comerciais. De fato, as taxas do DeepSeek para empresas são entre dez e quarenta vezes menores que as do OpenAI, o que é justificado pelo menor uso de recursos exigido por seu modelo.
Dessa perspectiva, o “Sputnik chinês” pode ter prestado um grande serviço ao quebrar o domínio dos gigantes tecnológicos americanos. Seus modelos de código aberto poderiam ser adotados e adaptados por outros, gerando mais concorrentes.
Se isso acontecer, no entanto, não se pode esperar que a IA "sóbria" do DeepSeek reduza a enorme quantidade de energia necessária aos data centers: o paradoxo de Jevons alerta que os ganhos em eficiência acabarão multiplicando o uso total de chips e eletricidade.
©2025 Aceprensa. Publicado com permissão. Original em espanhol: DeepSeek, el hallazgo chino que amenaza el dominio norteamericano en IA
VEJA TAMBÉM:



