No entanto, ainda é mais barato que seus concorrentes.
O novo chatbot de Deepseek se apresentou para mim com esta descrição envolvente:
Olá, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que pode até surpreendê -lo.
Hoje, a inteligência artificial da Deepseek emergiu como um concorrente formidável no mercado, contribuindo principalmente para uma das maiores quedas de preços das ações da NVIDIA.
Imagem: Ensigame.com
O que distingue esse modelo são seus métodos inovadores de arquitetura e treinamento. Utiliza várias tecnologias de ponta:
Previsão com vários toques (MTP): Essa abordagem permite que o modelo prevê várias palavras ao mesmo tempo analisando diferentes partes de uma frase, aumentando a precisão e a eficiência.
Mistura de especialistas (MOE): O modelo de Deepseek emprega uma variedade diversificada de redes neurais para processar dados de entrada. Essa arquitetura acelera o treinamento da IA e aumenta o desempenho. Em Deepseek V3, 256 redes neurais são usadas, com oito ativados para cada tarefa de processamento de token.
Atenção latente de várias cabeças (MLA): Esse mecanismo ajuda a IA a se concentrar nas partes mais significativas de uma frase. Ao extrair repetidamente os principais detalhes dos fragmentos de texto, o MLA reduz o risco de perder informações importantes, permitindo que a IA capture melhor as nuances cruciais nos dados de entrada.
A principal startup chinesa Deepseek se orgulha de criar um modelo de IA altamente competitivo a um custo mínimo, alegando ter gasto apenas US $ 6 milhões no treinamento do Deepseek V3 usando apenas 2048 processadores gráficos.
Imagem: Ensigame.com
No entanto, analistas da semiânica revelaram que a DeepSeek opera uma infraestrutura computacional substancial, compreendendo cerca de 50.000 GPUs NVIDIA Hopper. Isso inclui 10.000 unidades H800, 10.000 H100s avançados e GPUs H20 adicionais. Esses recursos estão espalhados por vários data centers e usados para treinamento, pesquisa e modelagem financeira de IA.
O investimento total da empresa em servidores é de aproximadamente US $ 1,6 bilhão, com despesas operacionais estimadas em US $ 944 milhões.
A Deepseek é uma subsidiária do fundo de hedge chinês High-Flyer, que saiu da startup como uma divisão separada de IA em 2023. Ao contrário da maioria das startups que dependem de provedores de nuvem, a DeepSeek possui seus data centers, fornecendo controle total sobre a otimização do modelo de IA e a possibilidade de obter uma rápida inovação. A empresa permanece autofinanciada, aumentando sua flexibilidade e velocidade de tomada de decisão.
Imagem: Ensigame.com
Além disso, alguns pesquisadores da Deepseek ganham mais de US $ 1,3 milhão anualmente, atraindo os principais talentos das principais universidades chinesas (a empresa não contrata especialistas estrangeiros).
Dados esses fatos, a reivindicação da Deepseek de treinar seu modelo mais recente por apenas US $ 6 milhões parece irrealista. Este número cobre apenas o custo do uso da GPU durante o pré-treinamento e não inclui despesas de pesquisa, refinamento de modelos, processamento de dados ou custos gerais de infraestrutura.
Desde a sua criação, a Deepseek investiu mais de US $ 500 milhões em desenvolvimento de IA. No entanto, sua estrutura enxuta permite implementar inovações de IA de maneira mais ativa e eficaz do que empresas maiores e mais burocráticas.
Imagem: Ensigame.com
O exemplo da Deepseek ilustra que uma empresa de IA independente e bem financiada pode realmente competir com os gigantes do setor. No entanto, os especialistas observam que o sucesso da empresa é impulsionado por bilhões de investimentos, avanços técnicos e uma equipe forte, enquanto as reivindicações sobre um "orçamento revolucionário" para o desenvolvimento do modelo de IA são um pouco exageradas.
No entanto, os custos da Deepseek permanecem inferiores aos de seus concorrentes. Por exemplo, a Deepseek gastou US $ 5 milhões em R1, enquanto ChatGPT4o custou US $ 100 milhões para treinar.