二度休学、xAI创始团队唯一本科生,摩根奖提名者杨格为何被马斯克看中?
出品|本站科技《智见焦点》
作者|赵芙瑶
编辑|丁广胜
当全球的科技大厂就在加码AI时,曾为Open AI创始人之一的马斯克自然不甘落后。
七月中旬,马斯克创立的人工智能实验室xAI横空出世,彼时,马斯克表示构建xAI的目标是要专注于回答更深层次的科学问题,期望未来可以利用AI帮助人们去解决复杂的科学和数学问题,并“理解”宇宙。
仔细查看xAI初创成员的名单,有来自谷歌、微软以及多伦多大学的研究员,个个经验丰富、履历出色。其中有一位华人的履历与经历备受瞩目,他是整个团队初创成员中唯一的本科生,也是OpenAI的贡献者之一,他就是Greg Yang,杨格。
哈佛求学 加入微软
摩根奖提名者因数学而“燃”?
在北京长大的杨格,从小就展现出卓越的数学才能。他成绩优异,顺利考入了哈佛大学数学系本科。在哈佛的学习生活中,他学业表现极为突出,但同时也因对音乐的热爱,决定休学去追求自己的DJ梦想,短暂开启了一两年的“打碟生涯”。未曾想,休学重新点燃了杨格对数学的热情,二度休学的他决定再次回到哈佛,专心投入学业。不得不说,“爱好”休学这一点,杨格和马斯克颇为相像。
重返哈佛后,杨格发表了自己的第一篇论文,并迷上了神经图灵机,发现了代数拓扑学和机器学习理论中的一个有趣的联系。毕业时,他顺利拿到谷歌offer,然而,彼时在杨格的导师丘先生看来,谷歌并不是最优之选,劝他放弃。取而代之,丘先生联系了他的朋友沈向洋,也就是微软研究院的负责人。沈向洋通过电话对杨格进行了面试,虽然沈向洋自认数学水平不足以全面评估杨格,但他安排了菲尔兹奖得主麦克对杨格进行面试。麦克面试后赞叹不已,称这个年轻人非常出色。
要知道,微软研究院平时只招收博士生,而杨格作为本科毕业生,成为少数例外。进入微软研究院后,杨格展现出非凡的才华,特别是在GPT的发展过程中,发挥了举足轻重的作用。
值得一提的是,杨格2018年获得了摩根奖荣誉提名,在推特简介中表示自己致力于发展TensorPrograms理论和扩展neuralnetworks的实践。xAI官宣后,杨格发表推文称,深度学习的数学是深奥、美丽而又非常有效的。发展出适用于大型神经网络的“万物理论”将对将人工智能提升到新水平起到关键作用。反过来,这种人工智能将使每个人都能以前所未有的方式理解我们的数学世界。
马斯克特别邀请杨格成为xAI合伙人,也足以可见对其能力以及实力的认可。
创新提出张量程序
推动深度学习领域研究与发展
要说杨格对于AI领域的最大贡献,无疑是创立了Tensor Programs(张量程序)。该理论是一个数学框架,用于理解和描述大型神经网络的计算过程。
张量程序理论的核心概念是将神经网络的计算表示为一系列矩阵乘法和逐元素非线性函数的组合。这样的表示形式简化了对神经网络计算的分析,使我们能够更深入地理解神经网络的行为和性质。
这个理论的重要性在于它具有普适性。事实上,几乎所有深度学习中的计算都可以表示为张量程序。包括像GPT-3这样的巨大神经网络,在张量程序的框架下,其计算过程可以用相对简单的矩阵乘法和非线性函数的组合来描述,这使得AI研究人员能够更容易地对复杂的模型和算法进行分析和理解。
张量程序理论的另一个重要特性是它存在一个“无限宽度”极限,可以从程序本身推导出来。这意味着它能够提供深度学习计算的无限宽度极限,从而帮助我们更好地理解和优化大型神经网络。
与此同时,张量程序理论为大规模深度学习提供了理论基础,有助于解决深度学习中的一些重要问题。其中一个关键的应用是超参数传递(hyperparameter transfer),它允许我们在庞大的神经网络中通过调整一个较小版本的网络的超参数,来有效地调整整个大型模型,从而避免了昂贵的多次训练。
在张量程序理论的发展过程中,杨格和他的团队提出了一系列关键论文,包括"Scaling Limits of Wide Neural Networks"系列,其中包括TP1、TP2、TP2b、TP3、TP4和TP5等论文。这些论文逐步展示了张量程序理论的重要性和实际应用。
总的来说,张量程序理论提供了更高效的模型优化和调优方法,以及更全面的安全性和对齐性考量。这将推动AI技术的不断进步,为人工智能的应用和发展打下坚实的理论基础。
未来,这位马斯克钦点的AI大咖将如何在xAI大展宏图?相信很快就会等到答案。