DeepSeek开创性的AI模型挑战了行业规范。最初被吹捧为预算奇迹,接受了600万美元的培训,现实显示出了更大的投资。本文探讨了DeepSeek的最初主张与开发其复杂AI的实际成本之间的差异。
DeepSeek聊天机器人具有令人印象深刻的能力,很快就成为了主要参与者,甚至导致Nvidia的股价大幅下跌。它的成功源于创新技术的独特组合:
- 多语预测(MTP):同时预测多个单词,可显着提高准确性和速度。
- 专家(MOE)的混合物:利用256个神经网络,每项任务激活了8个,以提高性能和训练效率。
- 多头潜在注意力(MLA):反复提取关键细节,以最大程度地减少信息丢失并改善细微的理解。
图像:ensigame.com
DeepSeek对DeepSeek V3的600万美元培训成本的主张具有误导性。尽管该数字可能反映了培训前的GPU使用情况,但它忽略了大量费用:研究,改进,数据处理和大规模的基础架构。半分析显示,DeepSeek运营着庞大的计算基础架构,利用大约50,000个NVIDIA HOPPER GPU(包括H800,H100和H20单元)跨多个数据中心。该基础设施的总投资总额约为16亿美元,运营成本估计为9.44亿美元。
图像:ensigame.com
作为中国对冲基金高级基金的子公司,该公司的结构为其成功做出了贡献。拥有其数据中心提供了无与伦比的控制和更快的创新实现。它的自资助性质允许敏捷和快速决策。此外,DeepSeek吸引了顶尖人才,一些研究人员每年收入超过130万美元。
图像:ensigame.com
DeepSeek对AI开发的总投资超过了5亿美元。它的简化结构可实现有效的创新,与大公司的官僚负担形成鲜明对比。但是,“革命预算”的叙述是对其实质资源承诺的过度简化。
图像:ensigame.com
尽管DeepSeek的成功表明了资金充足的独立AI公司与巨人竞争的潜力,但其故事强调了这项成就所必需的重大投资。 DeepSeek报告说,R1的500万美元与估计的ChatGpt4O估计$ 1亿美元之间的对比凸显了巨大的成本差异,即使DeepSeek的大量投资也是如此。因此,需要在总体大量投资的背景下查看最初的低成本索赔。