陆DeepSeek-V3训练成本不到600万美元 预训练2个月仅用2048块GPU
▲DeepSeek(深度求索)大模型。(图/翻摄官网)
记者魏有德/综合报导
大陆AI创新公司DeepSeek(深度求索)DeepSeek-V3于26日正式发布首个版本并同步开源,这款高达671B的大模型,在预训练阶段仅用2048块GPU训练2个月,且只耗资557.6万美元,引起AI行业内震动,同时,在性能上也能比肩业内AI大模型,让全球AI研发者及业内人士关注。
《中信证券研报》报导,近日,DeepSeek-V3的正式发版引起AI业内广泛高度关注,其在保证了模型能力的前提下,训练效率和推理速度大幅提升。DeepSeek新一代模型的发布意味着AI大模型的应用将逐步走向普惠,助力AI应用广泛落地;同时训练效率大幅提升,亦将助力推理算力需求高增。
DeepSeek-V3研发团队证实,多Token预测目标(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推测解码。后训练方面,DeepSeek V3引入一种创新方法,将推理能力从长思维链模型(DeepSeek R1)中,蒸馏到标准模型上。这在显著提高推理性能的同时,保持了DeepSeek V3的输出风格和长度控制。
外界分析,DeepSeek-V3极低的训练成本或预告AI大模型对算力投入的需求将大幅下降,不过,DeepSeek虽缴出亮眼的成绩单,但其统计口径只计算「预训练」阶段,数据的配比需要做大量的预实验,合成数据的生成和清洗也需消耗算力,此外,在训练上做降本增效不代表算力需求会下降,只代表大厂可以用性价比更高的方式去做模型极限能力的探索。
Lepton AI创始人兼CEO贾扬清针对推理方面分析道,最重要的是,我们正式进入了分布式推理时代,「一台单GPU机器(80×8=640G)的显存已经无法容纳所有参数。虽然更新大显存机器确实可以装下模型,但不论如何,都需要分布式推理来保证性能和未来扩展。」
OpenAI联合创始人兼前首席科学家Ilya Sutskever曾断言称,「我们已经达到数据峰值……AI预训练时代无疑将终结。」部分AI投资人、创始人和CEO们也曾提及,AI在Scaling Law定律的收益正逐步衰减,「我们正处于一个新的Scaling Law时代——测试时间计算时代,即推理时代。这项能力让AI模型在回答问题之前,能有更多时间和算力来思考,这特别有希望成为下一件大事。」
「Bloomberg Intelligence」近期刊出的报告显示,「企业客户可能会在2025年进行更大规模的AI投资,而AI支出增长将更侧重于推理侧,以实现投资变现或提升生产力。」