DeepSeek-V3

開發者 | 深度求索 |
---|---|
首次发布 | 2024年12月26日 |
当前版本 | 2025年3月24日 |
前任 | DeepSeek-V2.5-1210 |
类型 | |
许可协议 | MIT許可證 |
网站 | www |
DeepSeek-V3是深度求索于2024年12月16日发布的人工智能大型语言模型,专门适用于数学、编码和中文等任务,性能对标GPT-4o等竞争产品[1]。DeepSeek-V3在所有模型中排名第七,在开源模型排第一。而且,DeepSeek-V3是全球前十中性价比最高的模型。[2]
开发
[编辑]DeepSeek-V3是深度求索於2024年12月26日發佈的人工智能大型語言模型,這款採用MoE(混合專家)架構的模型不僅在性能上媲美頂級閉源模型,其低成本高效率的特點更是引發業界關注。相較於前代產品,新模型的生成速度提升了3倍,每秒鐘可處理60個token,顯著提升了實際應用效率。而為了提高訓練效率,研究採用了 FP8 混合精度訓練技術並對訓練框架進行了全面優化。低精度訓練作為一種高效率的訓練方案,其發展與硬體效能的提升密切相關。本研究首次在超大規模模型上成功驗證了 FP8 混合精度訓練架構的有效性。透過採用 FP8 運算和儲存技術,顯著提升了訓練速度並降低了 GPU 記憶體佔用。[3]在性能方面,DeepSeek-V3展現出卓越實力。它不僅超越了Qwen2.5-72B和Llama-3.1-405B等知名開源模型,更在多項測試中與GPT-4和Claude-3.5-Sonnet不相上下。特別是在數學能力測試中,該模型以優異成績超越了所有現有開源和閉源模型。[4]最引人注目的是DeepSeek-V3的低成本優勢。根據開源論文和DeepSeek披露該大模型的訓練系基於2,048塊輝達H800型GPU(針對中國大陸市場的低配版GPU)叢集上執行55天完成,按每GPU小時2美元計算,模型全部訓練成本僅為557.6萬美元,這個數字只有(據估計投資超過5億美元)前者的1%。[5]
使用
[编辑]DeepSeek-V3使用MIT协议开源,意味着任何人都可以自由使用该模型,包括商业用途。用户可以在DeepSeek官方网站和App使用官方提供的服务。
DeepSeek-V3上线时提供的API服务优惠定价为每百万输入tokens 0.1元(缓存命中)或1元(缓存未命中),每百万输出tokens 2元。
2025年2月9日,DeepSeek-V3 API服务优惠期结束,价格变为输入token每百万两元,输出token每百万八元,涨幅明显。[6]
外界反应
[编辑]DeepSeek-V3發布後,英偉達股價下跌了2%,被指与此模型有关。[2][可疑]
OpenAI創始團隊成員、高級研究科學家Andrej Karpathy表示,DeepSeek僅用了280萬小時的GPU算力,就訓練出了比Llama-3 405B(使用3080萬小時GPU)更強的前沿模型,整體成本節省了11倍左右,這表明,即便在計算力有限的情況下,即使使用高品質的數據模型,更好的演算法同樣能訓練出高性能大模型。[7]
Scale AI創辦人亞歷山大•王表示,中國領先的大型語言模型實驗室DeepSeek選擇在聖誕節發布其最新型號V3,這項舉措頗具深意。性能與GPT-4o和Claude 3.5 Sonnet不相上下,但訓練所使用的算力資源僅為前者的十分之一,中國科技界的辛酸教訓是:當美國休息時,中國正在工作,以更低的成本、更快的速度迎頭趕上,變得更強。[8]
版本迭代
[编辑]2025年3月24日,DeepSeek V3发布版本更新V3-0324。据报道,该版本在所有基准测试中都有明显进步,尤其以编程能力提升为一大亮点,可能为迄今最强大的非推理模型。[9]
参见
[编辑]参考资料
[编辑]- ^ DeepSeek-AI; Aixin Liu; Bei Feng; et al, DeepSeek-V3 Technical Report (PDF), 2024-12-27, arXiv:2412.19437
, doi:10.48550/ARXIV.2412.19437, Wikidata Q131924365 (英语)
- ^ 2.0 2.1 “DeepSeek或彻底改变游戏规则”!中国大模型“搅动”硅谷,巨头进入恐慌模式,外媒刷屏,大佬发声:中国AI已追上美国. 每日经济新闻. [2025-01-29]. (原始内容存档于2025-01-30).
- ^ 幻方量化重磅发布DeepSeek-V3:性能媲美GPT-4,训练成本创新低. www.aibase.com. [2025-03-07] (中文).
- ^ DeepSeek-V3 正式发布 | DeepSeek API Docs. api-docs.deepseek.com. [2025-03-07]. (原始内容存档于2025-01-23) (中文(中国大陆)).
- ^ 腾讯网. Deepseek v3正式发布:用557.6万美金比肩Claude 3.5_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. (原始内容存档于2025-01-09) (中文(中国大陆)).
- ^ DeepSeek-V3收费加价. 联合早报. 2025-02-10 [2025-03-02] (中文(简体)).
- ^ Andrej Karpathy (@karpathy) on X. X (formerly Twitter). [2025-03-07]. (原始内容存档于2025-03-09) (英语).
- ^ 腾讯网. DeepSeek V3获众多AI大佬赞誉:高性能低成本 是智慧和实用主义的体现_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. (原始内容存档于2024-12-27) (中文(中国大陆)).
- ^ DeepSeek发布V3模型更新 提升编程能力. 联合早报. 2025-03-25 (中文(中国大陆)).
外部链接
[编辑]- DeepSeek-V (页面存档备份,存于互联网档案馆)性能與GPT-4o和Claude 3.5 Sonnet不相上下,並且訓練所使用的算力資源僅為前者的十分之一 正式发布 | DeepSeek API Docs (页面存档备份,存于互联网档案馆)
- deepseek-ai/DeepSeek-V3 (页面存档备份,存于互联网档案馆)