O modelo inovador de IA de Deepseek desafia as normas da indústria. Inicialmente, apresentado como uma maravilha orçamentária, treinada por meros US $ 6 milhões, a realidade revela um investimento muito mais substancial. Este artigo explora as discrepâncias entre as reivindicações iniciais da Deepseek e os custos reais envolvidos no desenvolvimento de sua IA sofisticada.
O Chatbot Deepseek, com recursos impressionantes, rapidamente se tornou um participante importante, causando quedas significativas no preço das ações para a NVIDIA. Seu sucesso decorre de uma combinação única de tecnologias inovadoras:
- Previsão com vários toques (MTP): Prevendo várias palavras simultaneamente, melhorando significativamente a precisão e a velocidade.
- Mistura de especialistas (MOE): Utilizando 256 redes neurais, com oito ativados por tarefa, para maior eficiência de desempenho e treinamento.
- Atenção latente de várias cabeças (MLA): Extraindo repetidamente os principais detalhes para minimizar a perda de informações e melhorar o entendimento diferenciado.
Imagem: Ensigame.com
A alegação de Deepseek de um custo de treinamento de US $ 6 milhões para o Deepseek V3 é enganoso. Embora esse número possa refletir o uso de GPU pré-treinamento, ele omite despesas substanciais: pesquisa, refinamento, processamento de dados e infraestrutura maciça. A semiânica revelou que a DeepSeek opera uma vasta infraestrutura computacional, utilizando aproximadamente 50.000 GPUs NVIDIA Hopper (incluindo unidades H800, H100 e H20) em vários data centers. Essa infraestrutura representa um investimento total do servidor de aproximadamente US $ 1,6 bilhão, com custos operacionais estimados em US $ 944 milhões.
Imagem: Ensigame.com
A estrutura da empresa, como subsidiária do fundo de hedge chinesa, contribui para o seu sucesso. A propriedade de seus data centers fornece controle incomparável e implementação mais rápida da inovação. Sua natureza autofinanciada permite agilidade e tomada de decisão rápida. Além disso, a Deepseek atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente.
Imagem: Ensigame.com
O investimento total da Deepseek em desenvolvimento de IA ultrapassa US $ 500 milhões. Sua estrutura simplificada permite inovação eficiente, contrastando com os encargos burocráticos de empresas maiores. No entanto, a narrativa do "orçamento revolucionário" é uma simplificação excessiva de seu compromisso substancial de recursos.
Imagem: Ensigame.com
Embora o sucesso da Deepseek demonstre o potencial de empresas independentes de IA bem financiadas para competir com os gigantes, sua história ressalta o investimento significativo necessário para tais realizações. O contraste entre a Deepseek registrou US $ 5 milhões por R1 e os US $ 100 milhões para o ChatGPT4O destaca as diferenças substanciais de custo, mesmo com o investimento substancial da Deepseek. A reivindicação inicial de baixo custo, portanto, precisa ser vista no contexto do investimento geral substancial.