El innovador modelo de IA de Deepseek desafía las normas de la industria. Inicialmente promocionado como una maravilla presupuestaria, entrenada por solo $ 6 millones, la realidad revela una inversión mucho más sustancial. Este artículo explora las discrepancias entre las afirmaciones iniciales de Deepseek y los costos reales involucrados en el desarrollo de su sofisticada IA.
El chatbot Deepseek, con capacidades impresionantes, se ha convertido rápidamente en un jugador importante, incluso causando importantes caídas del precio de las acciones para Nvidia. Su éxito proviene de una combinación única de tecnologías innovadoras:
- Predicción de múltiples token (MTP): Predecir múltiples palabras simultáneamente, mejorando significativamente la precisión y la velocidad.
- Mezcla de expertos (MOE): Utilizando 256 redes neuronales, con ocho activadas por tarea, para una mayor eficiencia de rendimiento y capacitación.
- Atención latente de múltiples cabezas (MLA): Extraiga repetidamente detalles clave para minimizar la pérdida de información y mejorar la comprensión matizada.
Imagen: Ensigame.com
El reclamo de Deepseek de un costo de capacitación de $ 6 millones para Deepseek V3 es engañoso. Si bien esta cifra podría reflejar el uso de GPU previo al entrenamiento, omite gastos sustanciales: investigación, refinamiento, procesamiento de datos y la infraestructura masiva. Semianalysis reveló que Deepseek opera una vasta infraestructura computacional, utilizando aproximadamente 50,000 GPU de tolva NVIDIA (incluidas las unidades H800, H100 y H20) en múltiples centros de datos. Esta infraestructura representa una inversión total del servidor de aproximadamente $ 1.6 mil millones, con costos operativos estimados en $ 944 millones.
Imagen: Ensigame.com
La estructura de la compañía, como subsidiaria del Fondo de cobertura chino High-Flyer, contribuye a su éxito. Ser propietario de sus centros de datos proporciona un control incomparable e implementación de innovación más rápida. Su naturaleza autofinanciada permite la agilidad y la rápida toma de decisiones. Además, Deepseek atrae a los mejores talentos, y algunos investigadores ganan más de $ 1.3 millones anuales.
Imagen: Ensigame.com
La inversión total de Deepseek en el desarrollo de IA supera los $ 500 millones. Su estructura simplificada permite una innovación eficiente, en contraste con las cargas burocráticas de corporaciones más grandes. Sin embargo, la narrativa del "presupuesto revolucionario" es una simplificación excesiva de su compromiso sustancial de recursos.
Imagen: Ensigame.com
Si bien el éxito de Deepseek demuestra el potencial de las compañías de IA independientes bien financiadas para competir con los gigantes, su historia subraya la inversión significativa necesaria para tales logros. El contraste entre los de Deepseek reportó $ 5 millones para R1 y los $ 100 millones estimados para CHATGPT4O destacan las diferencias de costos sustanciales, incluso con la inversión sustancial de Deepseek. El reclamo inicial de bajo costo, por lo tanto, debe verse dentro del contexto de la inversión sustancial general.