Le modèle d'influence de Deepseek remet en question les normes de l'industrie. Initialement présenté comme une merveille budgétaire, formée pour seulement 6 millions de dollars, la réalité révèle un investissement beaucoup plus substantiel. Cet article explore les écarts entre les revendications initiales de Deepseek et les coûts réels liés à l'élaboration de leur IA sophistiquée.
Le chatbot Deepseek, offrant des capacités impressionnantes, est rapidement devenue un acteur majeur, entraînant même des baisses de cours d'action importantes pour NVIDIA. Son succès découle d'une combinaison unique de technologies innovantes:
- Prédiction multi-token (MTP): Prédire plusieurs mots simultanément, améliorant considérablement la précision et la vitesse.
- Mélange d'experts (MOE): Utilisation de 256 réseaux de neurones, avec huit activés par tâche, pour une performance améliorée et une efficacité de formation.
- Attention latente multi-tête (MLA): Extraction de détails clés à plusieurs reprises pour minimiser la perte d'informations et améliorer la compréhension nuancée.
Image: esigame.com
La réclamation de Deepseek d'un coût de formation de 6 millions de dollars pour Deepseek V3 est trompeuse. Bien que ce chiffre puisse refléter l'utilisation du GPU avant la formation, il omet des dépenses substantielles: recherche, raffinement, traitement des données et infrastructure massive. La semianalyse a révélé que Deepseek exploite une vaste infrastructure de calcul, utilisant environ 50 000 GPU Nvidia Hopper (y compris les unités H800, H100 et H20 H800, H100 et H20) dans plusieurs centres de données. Cette infrastructure représente un investissement total de serveur d'environ 1,6 milliard de dollars, avec des coûts opérationnels estimés à 944 millions de dollars.
Image: esigame.com
La structure de l'entreprise, en tant que filiale du High Flyer chinois, contribue à son succès. La possession de ses centres de données fournit un contrôle inégalé et une mise en œuvre plus rapide de l'innovation. Sa nature autofinancée permet l'agilité et la prise de décision rapide. De plus, Deepseek attire les meilleurs talents, certains chercheurs gagnant plus de 1,3 million de dollars par an.
Image: esigame.com
L'investissement total de Deepseek dans le développement de l'IA dépasse 500 millions de dollars. Sa structure rationalisée permet une innovation efficace, contrastant avec les charges bureaucratiques de grandes sociétés. Cependant, le récit du "budget révolutionnaire" est une simplification excessive de son engagement substantiel en ressources.
Image: esigame.com
Alors que le succès de Deepseek démontre le potentiel des entreprises d'IA indépendantes bien financées à rivaliser avec les géants, son histoire souligne l'investissement important nécessaire pour de telles réalisations. Le contraste entre les 5 millions de dollars de Deepseek pour R1 et les 100 millions de dollars estimés pour Chatgpt4o met en évidence les différences de coûts substantielles, même avec l'investissement substantiel de Deepseek. La réclamation initiale à faible coût doit donc être considérée dans le contexte de l'investissement substantiel global.