AI大模型前瞻:多模态融合、上下文、云端协同成趋势|直击2024GDC

《科创板日报》3月24日讯(记者 黄心怡)在今日举行的“2024全球开发者先锋大会”大模型前沿论坛上,上海人工智能实验室领军科学家林达华总结了过去一年大模型的发展,并对未来趋势进行了前瞻分析。

他表示,GPT-4已经发布一周年,过去一年的成果超越了过去十年的积累。目前,上下文、推理能力、更高效的模型架构是技术探索的重点方向,轻量级模型崭露头角,开源模型快速发展。

林达华介绍,大模型时代,技术演进有两股主要的驱动力量:一是对AGI(通用人工智能)的追求,对尺度定律(Scaling Law)的信仰;二是对大模型带来新一次产业变革的憧憬。

在模型架构方面,业界从追求参数到追求更高效的规模。林达华以人脑为例,人脑的效率远高于主流大模型的架构,人脑包含60-100万亿个神经元突触连接,其运行功率仅20瓦,而千亿参数模型的推理功率是它的百倍以上,处理的信息更单一。

其中,MoE(Mixture of Experts)值得关注,经过良好训练的MoE可取得比同等激活参数量的稠密模型更好的性能。业界也在探索Mamba模型等,以低复杂度的注意力架构更高效地处理上下文。

在训练数据方面,从追求数量到寻求规模化构建高质量数据的路径。他表示,训练数据包括三要素:规模、质量、多样性。在规模方面,早在ChatGPT之前,DeepMind等研究报告已指出训练数据要和模型参数同步增长。

数据质量在大模型训练中扮演越来越重要的角色,训练数据的质量对模型水平影响很大,低质量数据对模型可能产生破坏性影响。增强数据的知识密度,能带来更高的训练效率。此外,好的数据集是非常多样化的,均衡分布在充分大的语义空间中。而互联网语料数据的分布极不均匀,存在大量低水平重复的语言模式,可能带来模型能力的塌缩,合理的resampling(重采样)策略能大幅度降低其负面影响。

多模态融合将成为重要趋势,相关技术探索仍在路上。另一趋势则是自2023年下半年开始,上下文长度快速增长,呈现数量级增长。

在Kimi宣布升级至 200万上下文无损输入后,阿里通义千问宣布向所有人免费开放1000万字的长文档处理功能,而360智脑正式内测500万字长文本处理功能,即将入驻360AI浏览器。

林达华认为,上下文支持能力的提升,意味着更广阔的应用可能性。比如2K长度的上下文主要用于日常聊天、知识问答、短文理解。32K可以支持拟人对话、长文分析、代码解释和缩写。100K可支持长报告/短篇小说、智能体长时间交互,以及简单的软件和网站构建。如果达到百万量级,则能支持长篇小说、直接注入小型知识库等。

智能体也成为业界关注的方向,林达华认为这是大模型应用的重要形态,但需要核心基础能力的支撑。

林达华还预计,云端在指数级成长的同时,端侧即将迎来黄金增长期。当下,国内头部安卓手机厂商均已入局AI手机,联想、荣耀等终端厂商还发布了首款AI PC。

林达华相信,云端协同将成为未来的重要趋势,由云侧计算建立天花板,端侧计算将支撑用户使用大规模放量。

从国内大模型的发展来看,GPT-4依然保持领先。国内前列的模型在主客观变现上都超过了GPT-3.5,商用闭源的大模型表现比开源模型更好,但是开源模型进步非常快。

不过,他也强调,要审慎地看待大模型榜单。因为任何榜单都有特定的偏重,而且任何排名都是短暂的,根据评测找到解决问题的路径,对于AI发展有更长的生命力。

国内大模型与GPT-4的真正差距在于推理能力。林达华称,特别是随着推理难度的提升,GPT-4和其他模型,重量级模型和轻量级模型逐渐拉开差距。相比常识推理、演绎推理,归纳推理是差距最大的类型。

林达华最后表示,大模型时代,AI产业分工将会被重塑,最强的大模型公司也不会垄断一切,在特定领域的数据优势,可以让一个模型在局部形成对GPT-4的超越。