清华姚班如何培养天才:给最有挑战性的问题和足够的自由度
"清华学堂计算机科学实验班"(简称"姚班")是由世界著名的计算机科学家、2000年图灵奖得主姚期智院士于2005年发起的拔尖创新人才培养项目。进入姚班的本科生需要经过严格的选拔,由姚先生亲自制定培养计划。
在过去的20年中,姚班培养了众多人工智能领域的领军人物,包括小马智行的联合创始人楼天城、旷视科技的联合创始人唐文斌、印奇和杨沐等。此外,近期备受瞩目的大型AI模型公司"月之暗面"的创始人杨植麟,也曾担任姚班的授课教师。
姚班还培养出了许多杰出的AI学者,他们现在在斯坦福大学、普林斯顿大学、杜克大学以及清华大学等国内外知名高校担任教职。
我们有幸邀请到了清华大学交叉信息研究院的助理教授吴翼。吴老师是2010年姚班的毕业生,并选择回到母校继续任教。
吴老师和我们分享了他在姚班求学和任教的经历。比如姚班高难度的课程设置是要“把最优秀的人聚集起来给他们最难的挑战。”同时给予学生的高度自由,大三就可以有足够的时间去申请心仪的项目和实习机会。
姚期智先生会定期跟学生一对一沟通,既幽默又接地气的指导他们:“听不懂的讲座也去听,可以培养科学家气质。”在和这样一批极致天才同学和老师的相处中,吴翼获得的感悟:“人跟人的智商差别有时候真的比人跟动物的差别还大...天天焦虑的人是撑不到十年的。”
吴老师还与我们分享姚班当前的研究方向,以及探讨姚班这种"精英教育"模式是否具有可复制性:“我们现在想帮助学生给到足够的空间和压力,同时引导他们往天上看。人才是培养和选拔,但是没法被计划。”
以下是部分访谈精选:
01 “姚班”人才的选拔与培养
《硅谷101》:先请吴老师简单介绍一下自己。
吴翼:我是2010年到2014年的时候在姚班读本科,2014年到2019年在伯克利读PhD。2019年的2月份一直到2020年的7月份在OpenAI工作。2020年8月份就回到清华姚班当老师了。
《硅谷101》:在你上学期间,你认为姚班的学习方法和学习体验有何特别之处?有哪些让您印象深刻的地方?
我们知道清华姚班分为两类学生,一类是竞赛类的学生,可以说是海选出来的天才中的天才;另一类是从清华其他本科班级中选拔出来的一些非常优秀的人。我很好奇他们是如何培养出这样一群极为优秀的人的。
吴翼:姚班其实是分阶段的。我上学的时候姚班大概是30个人,只有一个班。现在其实挺多了,有七八十个人,也有不同的方向,我觉得姚班基本上分三个阶段:
第一个阶段就是姚先生刚回来的时候,也就是2005年,第一次开始搞一个实验班,当时是受姚先生个人风格影响特别强烈的一个阶段。2004年第一届姚班的学生楼天城,现在 Pony.ai的创始人。楼教主就是当时四字班,他们那个年代的姚班就是以理论计算机科学为主。这也是姚先生自己的老本行。
当时有一个客观的原因:姚先生觉得理论计算机科学是整个计算机科学的基础,但是在国内没有好的理论计算机培养体系和课程。所以当时姚先生回来,专门以理论计算机科学为中心设计了一套培养方案。
基本上是到了2010年左右,姚班也运行了一段时间,开始有新的老师回来。比如我们院的徐葳老师也是伯克利毕业的、黄隆波老师、李建老师,这些都是我在读书的时候从海外回来的。
从那个时代之后,我们院开始有比较广泛的课程设置,整个院基本上,我认为和美国的一流高校接轨了。课程体系也好,培养体系也好,都非常前沿和全面了。
不变的事情是:第一,姚班非常重视理论,就是计算机理论,所以确实有不少的理论课。
第二件事情是姚班的课程确实非常难。我们那个时候理论课就非常多,非常重,难度非常大。现在因为他们的课程比较多,每一门课都是海外回来的老师新开的,所以难度也非常大。
第三是姚班学生确实培养的自由度非常大。举个例子,比如我们读书的时候,我们总体要求的学分或者学时数量比起其他院系是少的,客观上说是少的。
《硅谷101》:是指课程少吗?
吴翼:课时少。就比如学分是一样的,但是我们需要坐在课堂里面上课的时间会比别的学生少一点。但这个也是因为我们课程难,所以就认为你课后需要花费更多的时间。所以就把一些学时放在了课后。
所以我们需要在课堂上坐在那的时间是比较少的。或者说,我们必须要分配一些非自主安排的时间,是比别的院系要少的,并且更灵活。这就导致我们院的学生有更多的自主支配时间,可以自己做科研,实习,还可以去访问。
其实2010年左右,当时最好的科研的机构是微软亚洲研究院。当时中国没有那么好的AI研究机构,所以想做AI的话,需要去微软亚洲研究院。但是去实习需要花时间的,大部分的院系其实是不可能抽出时间去实习。
但我们院是如果把课程排好,是真的可以做到一周有2到3天时间是没课的。比如说我们院现在基本上能够做到大三的一个学期可以不排课,他们就会选择出去实习,或者去美国访问。
这些事情院里面都是非常鼓励的。当然它是有个发展流程的,但是总体上姚先生是能够做到重视理论培养,然后课程方面给大家足够的空间。
我想说的是,这些人其实不是培养出来的,而是“智能的涌现”。其实姚班也比较像“涌现”,这些人他们做的研究,也不是院里面老师带的,现在我们班里有很多做教授的同学,他们做的研究也不是跟院里面的老师特别相关。
但是没有关系,你只有让他们知道世界是这么大,然后把很多好的人攒在一起,你再给他们点时间,人才就会自动地涌现出来。所以姚先生做的事情就是把这些最好的人聚集起来,之后给他们时间和空间,并且告诉他们这个世界上有很难的问题,然后大家就会自己探索。所以有的时候也会说姚班比较卷。
《硅谷101》:感觉是把全中国最聪明的一群人,首先先聚集起来,给他们足够有挑战的问题,再让他们有足够的自由度去探索。
我今天还看了一个姚先生的访问。里面有一段话是说:如果有一门课,你拿到的分数并不高,至少你知道你以后的事业就可以不用选这个方向了。所以他其实是一个非常鼓励大家去找到自己擅长跟热爱的一个学者。
吴翼:挺有意思的,姚先生自己本身也是挺风趣很幽默的。而且姚先生也是大家,他讲的很多话其实挺深刻的。有些话是我读书的时候其实不觉得,但回头看,会发现他讲的话是很深刻的。但这个深刻我可能在读书的时候也不一定知道。他其实也会讲一些玩笑话。当时我们院会经常组织一些讲座,我们院的讲座密度是非常高的,也会鼓励本科生去听讲座。
我们那个年代姚先生还会每年请我们吃一次饭,和我们做一对一沟通。我们会问他:姚先生您讲的内容都是前沿内容,我们听不懂怎么办?您还要让我们去听讲座,但我们都听不懂。
姚先生说:“没有关系,听你听不懂的讲座可以培养科学家的气质。”这其实也挺对的,因为大部分时候就是听不懂,但听着可能就听懂了。或者你大概也能从里面收获到一点东西,那对你也是有用的。
读书的时候,大家会觉得所有的东西都要搞懂。但可能来姚班就会发现:怎么这些人是这个样子的?这个东西怎么这么难?你很快就会意识到,反正有很多东西都是不懂的。有很多类似的一些话,那个时候可能你印象挺深刻的,它确实对你产生了很多的影响。
《硅谷101》:姚班有哪些非常厉害的科技公司的创始人,以及有哪些非常顶级的学者?
吴翼:比如说四字班(2004年)的楼天城,小马智行的CTO,也是竞赛出身。在学界有四字班的鬲融,是清华计算机系历史上非常传奇的一个人物,基本上门门功课考第一的那种。鬲融现在在杜克大学,他也是斯隆Fellowship(斯隆研究奖)。
五字班,当时有周源,在UIUC当助理教授,然后回到清华。
六字班就有旷视科技的唐文斌,还有杨沐和印奇。
八字班出了好多人,比如陈丹琦,是在普林斯顿做自然语言处理的助理教授,她的老公俞华程也是八字班的同学,也在普林斯顿。八字班还有在斯坦福任教的马腾宇,最近也开了自己的公司Voyage AI。马腾宇和陈丹琦应该都是斯隆Fellowship(斯隆研究奖)。
九字班的有七八位是在高校任教职的 ,比如吴佳俊在斯坦福当助理教授,他当时是我隔壁宿舍的。我们这届其实也有不少开公司的,我自己开了一个小公司,也是做大模型Agent的相关的公司。
再往后比较年轻的三字班,刘壮应该是刚去普林斯顿当教授。
分界线在八字班左右,基本上每一届都能数出来好几个在顶级高校,每个Top10高校有任职的。甚至Top5、Top6 大学任教的每一届都会有。从他们任教开始,也就是说从姚班成立到第一批学生,到可以在美国最顶级的高校任教,可能花了10年。
《硅谷101》:在AI产业里面的人呢?
吴翼:产业都是刚好和人工智能相关。像自动驾驶,小马智行是最早的公司。上一代人工智能创业公司有Face++,旷视科技。
大模型这一代的创业公司里面,叉院的老师参与的会非常多。我自己是一个例子。大模型方面,杨植麟也在我们院任教过很长一段时间。最近的具身智能这一波,其实也好多公司都有我们院老师的参与或者团队参与。
其实也很有意思,因为姚班确实是不管是汇聚老师也好,还是汇聚学生也好,是把中国相当一部分最好的人才聚集在一起。而这几波创业浪潮,恰好也都是技术驱动的。那么对人才的要求就会比较高,所以创业的趋势恰好和姚班的特点比较匹配,所以我们确实赶上了好的时间能够参与进去。
《硅谷101》:还有一个原因是不是因为首先是有姚期智先生牵头?同时你们是一个非常年轻的院系,它没有历史的包袱在里面,所以它能发展得很快?
吴翼:如果看院系发展的话,它确实是一个年轻的院系,他的包袱会少一点。比如我们在做课程改革的时候,不管是人事还是招聘,还是在教学方案培养上,都是可以变化得很快很灵活,这是一方面。我确实觉得跟姚先生自己他花的时间和他投入的自己的声誉和精力都是很有关系的。
比如最早期的时候,为什么在清华还没有是任何世界一流计算机研究命题的时候,能够吸引到一批国际学者和最好的学者来给姚班上课?在最早期的时候,我们其实有很多的课是微软亚洲研究院的老师来上课的,这些其实都是靠姚先生自己的个人光环。当他在做完这一步启动之后,开始能够吸引到更多的海外的老师回来任教,再往后面的工作都顺其自然了。
到现在,我觉得姚班的发展就很正规了。比如基本上我们所有的老师都是美国Top4 CS PHD 项目回来的老师。在这种情况下,姚先生就不太用操心每个课到底谁开。基本上每个课的每个方向都有最好的老师去教授,他不太用管这些事情了。但在早期的时候,每一门课其实都需要花很多心思的,他要去找谁。
《硅谷101》:姚先生会自己去写教材吗?
吴翼:他自己也会上课,姚太太其实也给我们上过课,亲自给我们上一些前沿的课程。然后去请人回来也很重要,因为这个其实就是卖面子。
《硅谷101》:而且能扩展大家的视野。
吴翼:在大家看不到外面的世界的时候,是需要有人能看到最好的人长成什么样的。没有姚先生牵这个头,并且他愿意亲自去卖这个面子,是做不到的。所以万事开头难,最早的几届永远是最困难。
02 “姚班”可以复制吗?
《硅谷101》:你现在觉得姚班的传奇可以复制吗?比如说其他院校的老师,能够找到一个足够重量级的教授来去复制姚班的这套模式,能不能打造成一个综合实力非常强的研究院?
吴翼:有相当多的地方都在复制这样的培养方式,我觉得其实对学生来说是一件非常好的事情。大家都发现姚班原来给予优秀的学生最好的资源,他们是可以涌现出这样最好的教学成果,很多高校其实都在模仿。
姚班也是在往前走的,不是就停在原地。所以我觉得再加上人才的密度和培养的模式,总是需要累积和时间的。
一个班级的惯性也好,还是他的培养体系,以及他师资的团队,以及他的研究的整个氛围是一步一步往前走的,那么其他学校我觉得是可复制的。如果他能找到同样的资源和时间,并且大家真的可以凑出这样的人,但是也是需要时间的。
第二个角度是我觉得不能以现在的标准来看,我们想的应该是在2004年或者2005年那个时间点,是不是有可能有别的人把这件事情做成?就像我们总说,百度搜索不好用,但是回到2000年那个时间点,也未必有人能比百度做得更好。
所以我们是不能抛开时间点来看这样的事情的。在那个时间点清华甚至没有一节计算机理论课。就算是清华,我们也得客观地说,那个年代几乎没有人能够在顶级会议上发论文的。
现在大家都知道了清华的论文数量跟美国的高校比也完全不落下风。但是那个年代是没有的,所以我们不能跳脱那个时代来看这个问题。
在那个年代我觉得是不可复制的,甚至即使在现在我觉得依然不太可复制。但有没有可能在未来的十年里有一个新的集体出现呢?我觉得是好事,因为出现的越多,对中国的教育也是一件好事。
《硅谷101》:你现在也在叉院做助理教授,你觉得目前还有哪些挑战是没有被解决的?
吴翼:我觉得不能叫没有被解决,我发现每一代人真的很不一样,你会有一种很强烈的感觉,一代人做一代人的事情。
因为我跟2004、2005的人,也就是十年前的人很熟;我自己又属于一代人,然后我自己又当班主任,所以我会观察到后面一代人,是很不一样的。
你去访问一个2004届、2005届的大师兄,问你当年为什么要选理论这个方向?所有人的回答基本都是姚先生极强大的个人魅力。
到我们这届开始的时候,我们开始知道要出去看看AI,看看别的方向,然后自己想去寻求机会。也有很多同学是做理论的,但是大家会开始考虑是不是可以去做AI、去做机器学习、去做一做别的什么东西。会开始想我们是不是要去海外去看一看。总体来说,我们是处在一个我很想去找机会的一个状态。
但是你看现在的小孩的心态就完全不一样,他们有好多选择。他们常跟我说:吴老师我这个项目做完了就不想做了。我说:你后面什么计划?他说:我想去MIT看看。他们也会更自信。
比如在我那个年代,我们其实是没有太多的选择。那时候清华已经有团队能发顶级会议论文了,但是还是很少。我2012年第一次发NIPS(神经信息处理系统大会 Conference on Neural Information Processing Systems)的时候,那个时候可能NIPS只有60篇论文,可能清华有几个老师能发一两篇论文。但现在不一样了,现在清华也能发非常多的论文。
所以那时候还是想,有没有一个地方能够给我一个机会,让我去证明自己。现在的小孩有这么多种选择,他们会比我们更自信一些,发自内心的这种自信一些。他们也确实有更好的资源。
这个事情就是一代一代的。先有姚先生的个人魅力,能够让一些学生开始走向世界一流,他们都是在比较偏理论的方向,然后他们会再回来吸引到一批不同方向的老师。有了这些老师之后会培养出新的一批学生,而这一批学生成为在世界上可以站得住脚的研究的学者之后,再培养出的学生,他们就会更有第一视角。
所以回答你的问题,有没有什么未解决的问题?我很难说我知道有什么问题没有解决,因为你其实不知道下一代人会长成什么样,我们不太能够预判说下一个时代长成什么样,但是你知道的事情是,这个时代一定在往前走。
《硅谷101》:大家的想法不太一样了。
吴翼:它是一个好事。一代更比一代强,就应该是这样的。所以很难说后来有什么新的结果,只能说我这代人也只能做我这代人的事情。
《硅谷101》:你的目标是培养更多的优秀学者,还是培养优秀的产业界人才?或者只需要培养优秀的人才即可。
吴翼:我觉得不同的老师可能不一样。我的风格比较特殊,更像带Startup创业团队。这可能与我个人的风格有关,也可能与我在OpenAI早期工作时的风格有关。我的风格倾向于完成整个项目。我不认为应该根据一个人最终成为教师还是进入工业界来判断如何培养人才。因此,我会按照自己的风格和想法与他们沟通。最终,他们自己决定是成为教师还是进入公司。
《硅谷101》:现在清华叉院在哪些方向有很强的科研实力呢?
吴翼:首先,我们的理论计算机科学做得非常好。每年都有很多优秀的学生,他们现在甚至可以在本科阶段就发表一些顶级论文级别的成果,非常厉害。此外,我们系统方向也有很多非常优秀的教师,他们在美国可以获得很好的教职,也都回来了。
还有一家“北极雄芯”,专门做Chiplet芯片的研发,还有一家公司专门从事加密计算芯片的研发,还有一些硬件公司。
当然,AI方向在过去几年中也非常强,尤其是大模型和具身智能。我们可能是具身智能这个方向人才密度最高的一个学院了。
《硅谷101》:具身智能的比较厉害的公司是?
吴翼:我们院自己是有一个孵化出去的,是陈建宇老师的星动纪元,做人形机器人的公司,这也是清华自己的项目。还有我们院的像高阳老师、许华哲老师、赵行老师也有很多参与的,或者说他们团队有联系和合作的公司。
《硅谷101》:我观察到现在整个在人工智能的方向,从学术或者研究,向工业的转换,这个链条已经越来越短了。
比如我们以前在科研跟工业之间,可能还存在着一个前沿学界研究。但是你要把这个东西拿来应用,可能是需要花很多年的时间的。但是我觉得在人工智能这个方向,尤其是OpenAI,特别是大模型出来之后,研究向工业的转换就变得越来越短了。
提一个假设性的问题。因为现在整个清华叉院它的人才密度也很高,同时你们也有非常多的研究在同时进行,你觉得有没有可能清华独立研究的大模型能够冲出来?
因为我知道现在很多美国的高校,他们也在跟美国国会游说,因为工业界是能募集到最多的钱的,如果我们这个事情只任由工业界去发展,不给学术界支持的话,整个学术圈的研发实力就会下降。有没有可能未来的一些突破可以从学术圈先开始,或者说学术圈能做一个媲美工业圈同样质量或者更好的大模型?
吴翼:首先第一个角度是,为什么周期变短了?我认为不是转化周期变短了,而是AI的发展趋势导致AI的发展特别注重工程,并且成本越来越高了。这使得很多规模化的研究不再是一两个人可以独立完成的,因此需要更高效或更强的运营实体和团队来完成这些工作。因此,将许多工程化研究工作移交给公司更为合适。这也是为什么很多学校难以开展此类研究的原因之一。
第二个问题是,是否有可能在国内学校里创造出一个与工业界相媲美的大型模型。但这个问题不太可能实现,因为它就是纯成本问题。比如,现在我们谈论的大型模型都是使用万卡集群,不考虑其他因素,我们需要1万张卡才能训练一个大型模型,而且我们需要大量的参数数据,那么这些数据是谁清洗的呢?如果我们搭建这样一个系统,让它运行一个月,保证不出错,编写这样的系统并不是几个博士生能够完成的任务。
学校研究运营体制以博士生为主,每个博士生都有自己的课题。这种大规模工程类似于欧洲的量子对撞机,难以指望由博士生组成的团队完成。
当然,欧洲量子对撞机也是由一群博士生和研究员建造的。但问题是,需要投入大量资金,成本也很高。我认为,这不是仅仅因为钱的问题,而是因为我们是否能够像研究量子碰撞那样,花费如此长时间来解决一个科学问题。AI的发展速度要求很高。
例如,如果我们想要验证引力波,这是一个巨大的项目,也养活了许多博士生。但我们是否真的愿意花费30年或20年的时间来研究一个问题呢?
在人工智能这个具有极高经济价值的领域中,如果非要通过研究体制来完成一项任务,实际上是非常低效的。如果让学术界来完成这项任务,根据其组织形式和周期来看,可能需要3到5年的时间,也就是需要3到5倍的时间才能完成。这不是不可能的,因为我们可以参考所有重大科研问题的解决方式,它们是可以做到的,只是组织程度会更慢。
商业是一个组织程度更快、竞争更加激烈的模式。是否有可能这样做呢?我认为这是不太可能的,因为它没有必要,这是一种很大的浪费。
《硅谷101》:还是效率上它不是一个最高的承载的形式。
吴翼:为什么NASA要把它的一些项目转移到SpaceX?其实是一个逻辑,如果它能产生商业价值的话,商业可能就是效率最高的一种行为。
但是,回到研究本身,我们需要以十年为尺度来看待它。我们可能会认为现在做一个研究,在两年后就可以产生AGI,但实际上并不是这样的。
我们要去看AGI是怎么来的。最早要从Hinton开始,他做Backpropagation(反向传播算法),然后发Nature的论文,那是80年代。然后到90年代有杨立昆,到2000年左右有Yoshua Bengio开始做神经与概率语言模型,然后到AlexNet,之后再到OpenAI的 Ilya Sutskever,中间花了四十年的时间。
杨立昆前段时间说了一句话,我觉得他某种程度上是对的,当然他是经常会跟现场的一些主流唱反调,他说的话不一定都对。他有一句话说的是:如果你读PhD,那不应该做大语言模型。这句话本身我觉得对于大部分PhD来说是不公平的,因为你不能说你为了成为Hinton而让大部分的学生都不去做这些研究。
大部分的学生,99.9%的人还不是Hinton,但是从培养Hinton的角度,如果你想去做一个颠覆式的、最重量级的创新,那确实你不应该看现在最火的东西,你应该back to the next big thing。
某种程度上科研是应该有人去做这样自由的探索的。如果你想去做大模型,现在来看最合适的体制就是在公司里,在商业竞争环境下,它才能前进地最快。
如果你想去做,就去寻找一些这样的机会。我觉得很多公司也是很开放的,比如我在伯克利的时候,很多大公司都跟伯克利合作。在清华的时候,其实有很多机会跟很多公司有合作。
如果是学术研究,我会觉得还是回归学术研究的本质。你去做一些有意思的事情,做一些有创新的东西,做一些大家没有想到的角度,它也是回归学术本质的一件事情。什么合适的体制和机制去做一件什么样的事情。
《硅谷101》:我上一期访问了陈羽北,你应该也认识。他在节目里面说了跟你一样的话,如果你是博士,不应该去研究大模型。然后你其实开始的时候,有提到你早期在OpenAI实习。它其实也是一个项目组一个项目组的,然后以这种项目制的方式来进行。当时你在的时候,是在研究智能体的方向,2020年它其实是有一篇GPT3的论文出来,你当时有注意到那个方向吗?
吴翼:GPT3其实内部2019年就已经看到了,所有的论文里写的东西,2019年的上半年其实大家都已经看到了,当然这是公司内非常重要的一个方向。但当时的OpenAI更像是一个研究院。
他们有一个Charter,即对外公开如何实现AGI,他们的逻辑很简单,即AGI必须具备视觉能力、语言能力和决策能力,因此他们有视觉团队、语言团队和强化学习团队。此外,他们还需要交互能力,因此需要更多的智能团队。他们还有一个本体,因此需要机器人团队。当然,他们还需要考虑安全性和可解释性等问题。因此,他们基本上是根据AGI的方向来确定团队的。
但是所有的团队有个比较标准的原则,就是我们希望 Scale up,这个也是OpenAI能跑出来的一个原因,是因为Scale up这件事情这么笃定坚信的人其实很少,直到ChatGPT,大家发现可以出ChatGPT,大家一起Scale up。
就是一个人告诉你,他可行的时候,和你根本不知道的时候是不一样的。所以OpenAI是几个创始人非常笃定的坚信,其实就是Ilya。我觉得Ilya给OpenAI带来最大的财富,就是他真的很坚信这件事情,矢志不渝的坚信,所以最后排除万难做成了,就发现真的有效果。
所以那个时候不管是做强化学习也好,还是做大模型也好,还是语言模型也好,大家都是采取Scale up的路线的,不在小规模计算上去做文章,这是统一的。因为我们OpenAI内部是有很多交流,All Hands会去每个团队分享在做什么。
所以2019年的时候,就看到大模型在内部去使用。你会发现这个东西有点厉害,只是在那个时候得非常懂行的人才能意识到这个模型很厉害,因为那个时候的GPT它不好用。普通人使用时会感到困惑,比如为什么老说胡话、重复自己的话等。后来做了对齐和chat,叫做alignment或instruction following,目的是让模型遵循人类的指令,比如让人帮忙写篇文章,它就得写篇符合要求的文章,而不是简单的回答“好”。
因此,在这些东西都准备好之后,正好是ChatGPT,于是它突然爆发了。但是在此之前,这些能力在19年就已经被大家看到了。虽然我很早就看到了这个东西,但我并没有那么确定,否则我应该在20年前就在中国开始研究了。当时我没有那么确定。
所以是直到这些东西都做好之后,刚好那个点是ChatGPT,所以它突然就爆了。但之前在2019年的时候大家都已经看到了,所以我确实是很早就看到了这个东西,但是我确实也没有那么笃定,不然我回国的时候,2020年就应该做在中国做一个。
《硅谷101》:你当时为什么不那么笃定?
吴翼:我认为有几个方向,我的兴趣可能是做交互。我一直认为语言和决策是很好的交互方式。我从强化学习的角度出发,回来后搭建了一套与OpenAI类似的强化学习训练系统。我没有做语言模型,因为没有人能预测到GPT3的成功。即使是OpenAI自己也没有预测到,内部的人也没有预料到。
《硅谷101》:那个时候大家虽然看到了一些科学上的进展,但是它的进展不那么明显,它没有到一个质的飞跃。
吴翼:那个点是很奇怪的,我问过我的同事,ChatGPT只做了一个礼拜,没有人知道它一定可以成功,一定可以有这么大的社会影响力。GPT3其实它有很强的影响力,它是当时的Best paper。在整个学术圈是很轰动的,但是没有真的扩散到这么大。
我当时可能也是对AI到来的速度没有做好那么强的准备,可能跟疫情有关系,大家想的问题都确实没有那么笃定。所以现在回头来看OpenAI能够那么坚持一个方向那么多年,确实也是挺难得的。
《硅谷101》:Ilya为什么那么笃定?
吴翼:他就是这么一个很偏执的人,一个正常人是不会这么笃定的。当然这个事是在于他最后成功了。所以大家不能总是回头看最成功的人是怎么样的,因为所有成功的人都能找出一万个理由。
在同时我想跟大家说的是,在OpenAI的同时期,其实有很多创业公司做AI。甚至是做AGI的创业公司,也不止我们一家。当时伯克利有个我同组的师兄,也是去了一家做AGI的创业公司,它的路线是逻辑推理,把逻辑的东西放在AI里边去,最后这个公司被DeepMind收购了。
但是我想说,同时期在美国做AGI的公司不是只有OpenAI,只是OpenAI跑出来了。当然现在可以回过头去分析它成功有好多的原因:首先是有毅力,可能Sam在合适的时候引入了投资,然后大家做 Scaling的路线又是正确的。
但也有别的公司,甚至也有NGO的公司, 比如Allen Institute for AI (AI2)。做语言做对话的也不只有OpenAI,比如有一个Semantic Machine,后来被微软收购了,当时也是斯坦福和伯克利最好的老师一起做的一个公司,是传统对话模型的巅峰。他们是把编程语言和对话模型放在了一起,做了一个被合并到微软产品里面去的一套系统。
有很多这样的公司。最后只是OpenAI大成了,所以我觉得是大家看问题可能稍微辩证一点,也有人在做别的东西但他失败了。当然他们有个共性就是所有成功的人都押注了一个东西。
《硅谷101》:我知道OpenAI里面有非常多的研究项目,但没想到它们之间有如此完整的逻辑关系,听了你的讲解后,我才意识到他们的研究架构非常清晰。尽管如此,在这么多清晰的研究架构中,仍然有一个非常小的方向脱颖而出。
吴翼:确实是这样,它在早年的时候是有一个比较大的章程,章程也会调整。在那个时候,大家会按照这样的组织方式去看AI和AGI。确实是语言模型和视觉的投入是挺多的,强化学习组人很多,我们组大概6个人左右,强化学习组或者机器人组的会人多一点,语言模型也会人稍微多一点。但是人的规模就是小几十号人,因为公司一共才100人。
确实最后是语言上这个东西跑出来。当然你可以说这里有特别多的证据,比如说人类的智慧其实就是语言,你可以现在这么说,要是OpenAI早就知道这件事情,我觉得GPT3还能早两年出来。
但是大家都不知道,是在迷雾里面往前走。
03 精英教育与普世教育
《硅谷101》:不管是在姚班,然后一系列的顶尖公司的工作经历,以及现在做清华叉院的助理教授的经历,你一直是在跟领域里面最顶级的人才一起合作的。如果让你总结,你觉得非常顶级的人才,他们有一些什么样的特质?或者你容易被什么样的特质所打动跟吸引?
吴翼:不同人的风格其实差别挺大的。这些聪明的学生有一个共同点,就是都有很强的自我驱动能力。在这个世界上,无论是成功还是取得成绩,都需要你自己去努力。在大学之后,没有人会强迫你做任何事情。大部分的事情都是你自己想做的,这是最低的要求。
在学校里,你还可以依靠成绩和学术成就来获得认可。但在社会上,没有人会教你,你需要自己思考并决定要做什么。因此,我认为这些人通常都有很强的自我驱动能力,知道自己的目标是什么。
我认为我们应该根据自己的兴趣和能力来选择职业。我们需要找到一个我们喜欢并愿意投入大量时间和精力的事情。此外,我们通常会发现那些我们最敬佩的人,他们都有自己独特的见解和理解。这些见解和理解是他们自己思考得出的,因为他们愿意去思考。
《硅谷101》:有哪些是大家普遍认为正确的,但你有自己的看法?这可能是投资人最喜欢问的问题之一。
吴翼:我觉得回顾过去的12年,我的很多观点都发生了变化。这与我对世界的认知有关。我不在乎对错,关键是不断思考并调整自己的想法。因为我曾经认为自己能够看懂世界,但后来发现自己的看法并不正确。
如果你没有经历过,没有踩过坑,你怎么能知道一个非共识的事情呢?现在我有一个小经验,就是在某个时间点,如果所有人都认为你是正确的,那么你应该再思考一下。一旦你觉得所有的话别人都觉得很好,那么你应该再想想,尤其是当你不是亲历者的时候。
因为人们很容易陷入舒适圈,觉得自己说得对,朋友也觉得对,所以你会觉得自己是对的。
但实际上,世界上没有绝对的东西,总会有一些你看不到的一面。但是因为你遇到的人都认为你说的是对的,所以你可能没有动力去寻找到底哪里不对劲。这是我的建议。首先,永远不要太自信,因为通常都会有问题。
第二件事情是不要太焦虑,因为反正你想的所有东西都是有问题的,接受这一点。
《硅谷101》:这两句总结很经典。
吴翼:第二件事情是这些比较有自驱力、还比较能折腾的人,一般心态都比较好,因为折腾等于受挫,折腾等于失败,因为你不折腾就不会失败,就永远不会失败。只要做了就有可能会失败,就会踩坑,就会遇到一些不顺心的事情,一个人能够一直折腾下来,一般心态都好一点。他要么自己特别自洽,有可能比较淡然,一般心态比较好。
所以我认为能突破的,一个就是能折腾的时候多折腾一点,其实人是怕待在自己的舒适圈里面待太久了,你可能会丧失你的一些敏锐的感觉,就像我说的,很多人说你对的时候你可能就有问题。
第二件事情就是心态好一点,因为如果你天天心态不好,可能就熬不到那个时候。
《硅谷101》:所以很多时候考验的最后是大家的心力值。
吴翼:确实是这样。在姚班上学这个事情,确实会给人挺多打击的。
我印象深刻的是大一刚进学校时,我参加了一个竞赛,觉得自己很厉害。但是后来我们做一门课的作业,是有一个美国老师给我们布置的,难度很高。我在宿舍里整天盯着题目做,但是一直做不出来。于是我就去找我的一个同学帮忙,他正在打游戏,我问他能不能帮我看看这道题怎么做。他很好心地停下来帮我解答,虽然他还在打CS,我不知道他的队友是怎么忍受他的。他就拿了根笔,写写就完了,帮我解决了问题。
我觉得这件事很离谱,冲击是很大。你就会觉得怎么有些人和人的智商的差别,比人跟动物的差别还要大。其实很多小孩进姚班的时候会有这样的挫败感,所以我们也是很多时候会希望能帮他调整过来。
就是你回头看这些,我们混得还不错的,其实都挺chill的。我有一个同学现在在CMU当faculty,后来他去了沙特当faculty跳槽了,他就天天在宿舍里用触摸板打dota,我印象特别深。那时大家没有特别焦虑,我们还天天踢球什么的,大家关系都挺好的。
天天焦虑的人一般坚持不到十年之后。
《硅谷101》:我注意到很多学校在培养人的时候,在学术上是有一套培养方法的。但你刚刚讲到很多事情,其实尤其是步入社会之后,很多时候是心态。你觉得清华姚班会注重对大家心态的培养吗?
吴翼:有几方面,一个是姚先生自己的个人魅力,他确实会给我们很多high level的、比较大师的一些指导,这些话我觉得反正年轻的小孩肯定都听不懂,这很正常。
因为我自己经历过这十年,我现在看就会觉得老板说的好,但放在十年前我不可能听懂的,甚至我可能现在也没有完全听懂。
所以肯定是姚先生自己的个人魅力能给大家带来一些启发,但更多的事情还是学生自己相互之间的,我觉得总体来说姚班大家互相帮助的气氛还是不错的。比如这一届刚毕业的零字班,其实都是整个班级氛围非常好的班级,相互帮助,真的不是大家独立作战的。
我记得13级毕业的时候有特别经典的一个事:当时毕业的时候要送个礼物,是他们班里面发的论文,当时发了40多篇论文,然后好像他们画了一下他们 Co-Author的示意图,展示了许多互相的合作关系。
可能不是每一届学生都这样。只能说姚班有这样一些传承,但其实很多引导是潜移默化的,它也不是刻意的。可能也不是每一级都这样,这种化学反应的事情也不可控,尤其现在姚班有七八十个人了之后,其实不可控的因素会变得更大。
可能这就是我们这一代人想做的事情,我们就希望能让这些学生心态好一点,能够让他们更平和地去做他们想做的事情。这可能是我们这一代人的回到学校之后的命题,所以每个大学生确实命题不一样。
在早期的姚班招生其实是以数学竞赛为主,因为姚班最早的时候是以理论计算机科学为主,所以它的很多选拔和招生是比较偏向物理和数学的。
我那一届计算机竞赛进入姚班的只有4个人,我们班30个人。我跟我的室友是国家队,佳俊是考进来的,另外一个同学是最后面试进来的。很长一段时间都是以数学为主,因为总体的培养比较偏理论,大家觉得数学基础比较重要。慢慢开始就随着人数比较多了之后,我们现在七八十个人,招生面就会比较广。30个人的时候其实竞争还挺激烈的,所以那时候在进入国家队之前,我都不知道我能不能进姚班。
《硅谷101》:你开始的时候是不是就已经有一个目标了?
吴翼:确实大家都想去,但是就很担心最后别真考数学,然后考不过。我后来发现这帮小孩也都很聪明,他们一般保送了之后就在家刷半年数学物理,考试都考得很好,也能进。因为现在我带的班里面的学生,我就问你们当时怎么复习的,他说知道考物理和数学,我们在家就专门学了半年。
《硅谷101》:你觉得好的人才是筛选出来的还是培养出来的?当然我知道这两者都很重要,但是我更想知道是这些人他本来就很聪明,还是说他可以以一种好的方式把他培养得更好。
吴翼:有一本书叫做《The Greatest Cannot Be Planned》,就是讲伟大的事情是不可能被计划的,所以我想说人才确实是被培养出来的,但不是被计划出来的。
首先他需要选拔,因为我觉得精英教育和普世教育是不太一样的,因为精英教育其实是蛮残酷的。比如本来我们是在高中的时候搞竞赛,在全国搞竞赛,然后到了姚班、伯克利,每一次的这样的选拔和竞争都是非常残酷的。但选拔是不可避免的,因为你如果希望最后培养的是最顶尖的人,它就是在竞争中产生的。其实企业也是,研究也是,人也是,所以选拔是不可避免的。
培养要不要?培养是需要的,你需要给这些人足够的空间,你也需要给他们足够的适度的压力,不能没有压力,让他们往天上看。因为在大家没有习惯于往上看的时候,老师是需要做这样的引导。
但是这是培养和选拔之后。但是不是可以确定一定能够出来谁?不知道,这个是不可预测的,只能说按这么做,大概率10年之后应该会有人成功,但是会是谁你不知道。
所以选拔很重要,培养很重要,但是也要做好有可能很多人没有成功。比如说姚班30多个人,我们班算是当老师非常高的一届了,我们可能就1/3的人在当教师,剩下的人就靠自己了。所以人才是培养和选拔,但是没法被计划。