Deepseekの画期的なAIモデルは、業界の規範に挑戦しています。当初、予算の驚異として宣伝され、わずか600万ドルで訓練された現実は、はるかに大きな投資を明らかにしています。この記事では、Deepseekの最初の主張と、洗練されたAIの開発に伴う実際のコストとの矛盾について説明します。
印象的な機能を誇るDeepseekチャットボットは、すぐに主要なプレーヤーになり、Nvidiaの大幅な株価下落さえも引き起こしています。その成功は、革新的なテクノロジーのユニークな組み合わせに由来しています。
- マルチトークン予測(MTP):複数の単語を同時に予測し、精度と速度を大幅に改善します。
- 専門家(MOE)の混合: 256のニューラルネットワークを利用して、パフォーマンスとトレーニングの効率を向上させるために、タスクごとに8つのアクティブ化されています。
- マルチヘッドの潜在的注意(MLA):情報の損失を最小限に抑え、微妙な理解を改善するために、重要な詳細を繰り返し抽出します。
画像:Ensigame.com
Deepseek V3の600万ドルのトレーニングコストに対するDeepseekの主張は誤解を招くものです。この数字は、トレーニング前のGPU使用を反映している可能性がありますが、研究、改良、データ処理、大規模なインフラストラクチャなど、かなりの費用が削除されます。 Semianalysisは、Deepseekが複数のデータセンターで約50,000のNvidia Hopper GPU(H800、H100、およびH20ユニットを含む)を利用して、膨大な計算インフラストラクチャを運営していることを明らかにしました。このインフラストラクチャは、サーバーの総投資を約16億ドルで、運用コストは9億4,400万ドルと推定されています。
画像:Ensigame.com
同社の構造は、中国のヘッジファンドハイフライヤーの子会社として、その成功に貢献しています。データセンターを所有すると、比類のない制御とより高速なイノベーションの実装が提供されます。その自己資金による性質は、敏ility性と迅速な意思決定を可能にします。さらに、Deepseekは最高の才能を引き付け、一部の研究者は年間130万ドル以上を稼いでいます。
画像:Ensigame.com
DeepseekのAI開発への総投資は5億ドルを超えています。その合理化された構造により、効率的なイノベーションが可能になり、大企業の官僚的な負担とは対照的です。ただし、「革新的な予算」の物語は、その実質的なリソースのコミットメントの単純化を超えています。
画像:Ensigame.com
Deepseekの成功は、資金提供された独立したAI企業が巨人と競争する可能性を示していますが、その物語はそのような成果に必要な多大な投資を強調しています。 DeepSeekのR1で500万ドルとCHATGPT4Oの推定1億ドルのコントラストは、DeepSeekのかなりの投資であっても、かなりのコストの違いを強調しています。したがって、最初の低コストの請求は、全体的な実質的な投資のコンテキスト内で見る必要があります。