DeepSeek下一代AI模型來了 旗艦版V4傳2月亮相

DeepSeek。(路透)

大陆AI新创公司深度求索 (DeepSeek)近年爆红,近期传出可能于2月发布新一代旗舰AI模型DeepSeek V4之际,该公司在12日深夜发表新论文,聚焦大模型的条件记忆模组,即透过分工优化算力,来提升新模型效率,让它又快又聪明,被业内认为是对V4模型技术架构的预告。

DeepSeek这次发表新论文是与北京大学合作完成,作者列有DeepSeek创始人梁文锋的署名,名称为「基于条件查找的条件记忆:大型语言模型稀疏性的新维度」。

综合第一财经、科创板日报等报导,论文出发点来自大模型通常包含两种性质不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识,而现有架构处理推理和固定知识的方法,效率较低且浪费算力。

有观点分析,现时主流大模型,比如GPT、DeepSeek-V3等,本质上都是「Transformer架构」,该架构缺乏原生记忆能力,导致每次指令都得重新运算,而Deepseek提出的记忆模组,像给AI装上外挂记忆硬碟,能把常见短语、固定搭配、实体名称提前存成「记忆条目」,让在同等算力下,AI展现更聪明的运用。

自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,科技媒体The Information近期引述消息人士报导,DeepSeek计划于农历新年前后推出新一代旗舰AI模型V4,内部测试显示,DeepSeek V4在AI编程表现上有望超越OpenAI的GPT系列及Anthropic的Claude。