陸官方大模型評測 百度文心一言、阿里通義千問4家通過

阿里通义千问、腾讯混元大模型、360智脑和百度文心一言等4家成为首批通过官方大模型测试的企业。(取自C114通讯网)

中国大陆首个官方「大模型标准符合性评测」结果22日公布,首批通过测试的大模型共4家,分别为阿里通义千问、腾讯混元大模型、360智脑和百度文心一言。

综合IT之家、界面新闻报导,「大模型标准符合性评测」由中国电子技术标准化研究院发起,旨在建立中国大模型标准符合性名录,引领人工智慧产业健康有序发展。此评测对外征集了学术界、产业界数十家头部单位意见,涵盖评估语言大模型通用性、智能性、安全性等38项具体面向,是基于官方大模型测试基准的权威评测。

经测试,上述4家企业大模型符合「人工智慧大规模与训练模型 第2部分:评测指标与方法」语言大模型的相关技术要求。

报导指出,阿里「通义千问」是本次通过的大模型中唯一的开源模型。通义千问72B号称自12月1日开源后,先后登顶HuggingFace排行榜、上海人工智慧实验室Open Compass榜单。

腾讯「混元」大模型号称拥有超千亿参数规模、预训练语料超2兆tokens,具备强大的中文创作能力。并在今年10月开放「文生图」功能。

「360智脑」是中国大陆首个原生安全的大模型,预训练超兆级tokens,具备生成创作、多轮对话、逻辑推理等十大核心能力、数百项细分功能,能够涵盖大模型应用的所有场景。已在金融、医疗、教育等近20个产业陆续运用。

百度「文心一言」则是大陆最早进入生成式AI跟布局大型语言模型的陆企,今年3月率先推出文心一言后。官方更称,最新文心一言3.5版本在综合能力得分上超过了ChatGPT,并在多个中文功能方面表现优于GPT-4。

文心一言已于8月率先通过大陆「生成式人工智慧服务管理暂行办法」备案,成为首批向公众开放的生成式人工智慧聊天机器人之一。

据报导,在评测结果揭晓当天,阿里云、腾讯云分别以技术牵头方、提案主导方的身份启动了「人工智慧模型即服务(MaaS)功能要求」的讨论与编制。

这项提案详细规定了MaaS系统的设计、实现、部署和使用,涵盖了使用者层、存取层、服务层、跨层功能、营运支援和安全系统等多维度,旨在规范MaaS领域的标准化工作,为产业的高品质发展注入活力。