Mô hình AI đột phá của Deepseek thách thức các chuẩn mực ngành. Ban đầu được quảng cáo là một điều kỳ diệu về ngân sách, được đào tạo với giá chỉ 6 triệu đô la, thực tế cho thấy một khoản đầu tư đáng kể hơn nhiều. Bài viết này tìm hiểu sự khác biệt giữa các tuyên bố ban đầu của Deepseek và các chi phí thực tế liên quan đến việc phát triển AI tinh vi của họ.
Chatbot Deepseek, tự hào với các khả năng ấn tượng, đã nhanh chóng trở thành một người chơi chính, thậm chí gây giảm giá cổ phiếu đáng kể cho NVIDIA. Thành công của nó bắt nguồn từ sự kết hợp độc đáo của các công nghệ sáng tạo:
- Dự đoán đa điểm (MTP): Dự đoán đồng thời nhiều từ, cải thiện đáng kể độ chính xác và tốc độ.
- Hỗn hợp các chuyên gia (MOE): Sử dụng 256 mạng lưới thần kinh, với tám công việc được kích hoạt cho mỗi nhiệm vụ, để nâng cao hiệu suất và hiệu quả đào tạo.
- Sự chú ý tiềm ẩn đa đầu (MLA): Liên tục trích xuất các chi tiết chính để giảm thiểu mất thông tin và cải thiện sự hiểu biết sắc thái.
Hình ảnh: Obligame.com
Yêu cầu của Deepseek về chi phí đào tạo trị giá 6 triệu đô la cho Deepseek V3 là sai lệch. Mặc dù con số này có thể phản ánh việc sử dụng GPU trước khi đào tạo, nhưng nó bỏ qua các chi phí đáng kể: nghiên cứu, sàng lọc, xử lý dữ liệu và cơ sở hạ tầng lớn. Phép phân cực cho thấy Deepseek vận hành một cơ sở hạ tầng tính toán rộng lớn, sử dụng khoảng 50.000 GPU phễu NVIDIA (bao gồm H800, H100 và H20) trên nhiều trung tâm dữ liệu. Cơ sở hạ tầng này đại diện cho tổng đầu tư của máy chủ khoảng 1,6 tỷ đô la, với chi phí hoạt động ước tính khoảng 944 triệu đô la.
Hình ảnh: Obligame.com
Cấu trúc của công ty, với tư cách là công ty con của quỹ đầu cơ của Trung Quốc, đóng góp cho sự thành công của nó. Sở hữu các trung tâm dữ liệu của nó cung cấp kiểm soát vô song và triển khai đổi mới nhanh hơn. Bản chất tự tài trợ của nó cho phép nhanh nhẹn và ra quyết định nhanh chóng. Hơn nữa, Deepseek thu hút tài năng hàng đầu, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm.
Hình ảnh: Obligame.com
Tổng đầu tư của Deepseek vào phát triển AI vượt qua 500 triệu đô la. Cấu trúc hợp lý của nó cho phép đổi mới hiệu quả, tương phản với gánh nặng quan liêu của các tập đoàn lớn hơn. Tuy nhiên, tường thuật "ngân sách cách mạng" là một sự đơn giản hóa quá mức cam kết tài nguyên đáng kể của nó.
Hình ảnh: Obligame.com
Trong khi thành công của Deepseek cho thấy tiềm năng của các công ty AI độc lập được tài trợ tốt để cạnh tranh với những người khổng lồ, câu chuyện của nó nhấn mạnh sự đầu tư đáng kể cần thiết cho những thành tựu đó. Sự tương phản giữa DeepSeek đã báo cáo 5 triệu đô la cho R1 và ước tính 100 triệu đô la cho TATGPT4O nhấn mạnh sự khác biệt đáng kể về chi phí, ngay cả với khoản đầu tư đáng kể của Deepseek. Yêu cầu chi phí thấp ban đầu, do đó, cần được xem trong bối cảnh đầu tư đáng kể chung.