王小川的步伐铿锵有力,百川再次迎来里程碑
6日,百川智能召开主题为“百川汇海,开源共赢”的大模型发布会,中科院院士张钹亲临现场并发表致辞。会上,百川宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本,并且均为免费可商用。百川智能同时还开源了大模型训练的Check Point,并发布Baichuan2技术报告,详细介绍Baichuan2的训练细节,帮助大模型学术机构、开发者和企业用户更深入的了解其训练过程,更好地推动大模型学术研究和社区的技术发展。
体验链接:
https://github.com/baichuan-inc/Baichuan2
报告链接:
https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf
此时距离百川智能的成立过去仅五个月左右,王小川当初的豪言“要做国内最好的大模型”,现在依然时常被人提起。看他最近几个月的表现,王小川的话正在逐步成为现实。
文理兼备,强过LLaMA2
这次的Baichuan2究竟有多强?Baichuan2-7B-Base和Baichuan2-13B-Base均基于 2.6万亿高质量多语种数据进行训练,在保留了前代良好的生成与创作能力,流畅的多轮对话能力以及部署门槛较低等众多特性的基础上,两款新品在数学、代码、安全、逻辑推理、语义理解等能力都有显著提升。举个例子,Baichuan2-13B-Base相比前代,数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。
7B和13B的两款新品在各大评测榜单上的表现都颇为亮眼,在MMLU、CMMLU、GSM8K等权威评估基准中都以明显优势领先LLaMA2。而对比其他近似参数量的大模型,它们的表现也可圈可点,性能优于不少同尺寸竞品。而在MMLU等多个权威英文评估基准下,Baichuan2-7B以70亿的参数,在英文主流任务上甚至能与130亿参数量的LLaMA2一较高下,Baichuan2-13B则更胜一筹。
能超过“羊驼”的确可喜可贺,但是也请注意与更高标杆的差距。Baichuan2-7B对比GPT-3.5-Turbo还有进步空间,尤其是在安全、代码、数学计算、逻辑推理等方面差距较大。
公布技术报告,促进生态繁荣
虽然当前世界上自称开源的大模型产品很多,但大部分都是公开自身的数据权重,对训练相关的细节还是有所保留,其他企业或研究机构只能在此基础上做有限的微调,很难进行深入研究。6日的发布会上,百川正式完全公开Baichuan2的技术报告。其中详细介绍Baichuan2训练的全过程,包括数据处理、模型结构优化、过程指标等外界普遍关心的问题均可在其中查阅。
自四月成立以来,百川智能就一直通过开源的方式助力国产大模型的生态繁荣,并将此纳入公司的重要发展战略。成立不到半年,百川已经相继发布了Baichuan-7B、Baichuan-13B两款开源免费可商用的中文大模型,以及一款搜索增强型Baichuan-53B,两款开源大模型在多个权威评测榜单均名列前茅,目前下载量已累计超过500万次。同时在上周通过《生成式人工智能服务管理暂行办法》备案的企业中,百川也名列其中,可以正式面向公众提供服务。
在6日的发布会现场,新发布的两款Baichuan2大模型得到了上下游企业的积极响应,腾讯云、阿里云、火山方舟、华为、联发科等众多知名企业均参加了本次发布会并与百川智能达成了合作协议。
首创全程开源,助力学术研究
一般说来,大模型训练包含获取保质保量的数据、大规模训练集群稳定训练、算法调优等多个环节。每个环节都需要大量人力物力财力的投入,从零到一完整训练一个大模型的高昂成本,往往就是学界对大模型深入研究的拦路虎。有鉴于此,本着协作和持续改进的精神,百川开源了新款大模型训练从220B到2640B全过程的 Check Ponit。
这对科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等极具价值,将极大推动国内大模型的科研进展,开源训练模型过程对国内开源生态尚属首次。
在四月成立百川智能时王小川曾表示,公司的目标始终是“打造国内最好的大模型”,计划在今年Q4时发布对标GPT-3.5的大模型,明年Q1发布超级应用,希望在开源闭源方面都能做出贡献。“我们认为国内有需求,也是我们能贡献的地方是在开源方面。所以公司成立之后就开始发布开源大模型,同时也兼顾了闭源大模型的训练。”
虽然四月时“打造国内最好的大模型”曾引起不小的争议,但经过近几个月的实际表现来看,王小川可能没有吹牛。即便百川后续的产品没有达到外界预期,但它势必在国产大模型的征程中留下难以磨灭的一笔。