Model AI Deepseek mencabar norma industri. Pada mulanya disebut sebagai keajaiban bajet, dilatih untuk hanya $ 6 juta, realiti mendedahkan pelaburan yang jauh lebih besar. Artikel ini menerangkan percanggahan antara tuntutan awal DeepSeek dan kos sebenar yang terlibat dalam membangunkan AI mereka yang canggih.
The Deepseek Chatbot, yang membanggakan keupayaan yang mengagumkan, dengan cepat menjadi pemain utama, bahkan menyebabkan penurunan harga saham yang signifikan untuk Nvidia. Kejayaannya berpunca daripada kombinasi unik teknologi inovatif:
- Ramalan Multi-Token (MTP): Meramalkan pelbagai perkataan secara serentak, meningkatkan ketepatan dan kelajuan dengan ketara.
- Campuran Pakar (MOE): Menggunakan 256 rangkaian saraf, dengan lapan diaktifkan setiap tugas, untuk peningkatan prestasi dan kecekapan latihan.
- Perhatian Laten Multi-Head (MLA): Berulang kali mengekstrak butiran utama untuk meminimumkan kehilangan maklumat dan meningkatkan pemahaman yang bernuansa.
imej: ensigame.com
Tuntutan Deepseek mengenai kos latihan $ 6 juta untuk DeepSeek V3 adalah mengelirukan. Walaupun angka ini mungkin mencerminkan penggunaan GPU pra-latihan, ia menghilangkan perbelanjaan yang besar: penyelidikan, penghalusan, pemprosesan data, dan infrastruktur besar-besaran. Semianalysis mendedahkan DeepSeek mengendalikan infrastruktur pengiraan yang luas, menggunakan kira -kira 50,000 NVIDIA Hopper GPU (termasuk unit H800, H100, dan H20) di pelbagai pusat data. Infrastruktur ini mewakili jumlah pelaburan pelayan kira -kira $ 1.6 bilion, dengan kos operasi dianggarkan $ 944 juta.
imej: ensigame.com
Struktur syarikat, sebagai anak syarikat dana lindung nilai Cina yang tinggi, menyumbang kepada kejayaannya. Memiliki pusat datanya menyediakan kawalan yang tiada tandingan dan pelaksanaan inovasi yang lebih cepat. Sifat yang dibiayai sendiri membolehkan ketangkasan dan membuat keputusan yang cepat. Selain itu, DeepSeek menarik bakat teratas, dengan beberapa penyelidik memperoleh lebih dari $ 1.3 juta setahun.
imej: ensigame.com
Jumlah pelaburan DeepSeek dalam pembangunan AI melebihi $ 500 juta. Struktur yang diselaraskannya membolehkan inovasi yang cekap, berbeza dengan beban birokrasi syarikat yang lebih besar. Walau bagaimanapun, naratif "belanjawan revolusioner" adalah penyebaran komitmen sumbernya yang besar.
imej: ensigame.com
Walaupun kejayaan DeepSeek menunjukkan potensi syarikat AI bebas yang dibiayai dengan baik untuk bersaing dengan gergasi, kisahnya menggariskan pelaburan penting yang diperlukan untuk pencapaian sedemikian. Perbezaan antara Deepseek dilaporkan $ 5 juta untuk R1 dan anggaran $ 100 juta untuk ChatGPT4O menyoroti perbezaan kos yang besar, walaupun dengan pelaburan besar Deepseek. Oleh itu, tuntutan kos rendah awal, oleh itu, perlu dilihat dalam konteks keseluruhan pelaburan besar.