第四范式戴文渊:AI产业落地需要五大先决条件

本站科技讯12月17日消息,由中国人工智能学会主办,本站科技承办的2016中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典今日在深圳登喜路国际大酒店举行。

本次大会以“AI新时代·产业新动能”为主题,会上第四范式创始人兼CEO戴文渊发表题为“AI+:赢在维度”的主题演讲,从人工智能数据技术发展遇见的问题入手,开辟了一个人工智能领域的重要方向:迁移学习。以“小数据”为方向的迁移学习,打破了目前深度学习只能使用大数据的瓶颈,以高维度的人工智能帮助未来企业在下一场科技革命中抢占先机。

戴文渊表示,如果企业内部用人工智能知道企业经营,最重要的就是我们要去做高VC维模型,我们要不断的去提高模型的维度,使得training loss和test loss不断的降低。VC维度是什么东西?大脑的维度大概就是大脑脑细胞的个数,所以可以把VC维度理解为脑细胞维度。而机器的维度也需要更多的脑细胞,才能更聪明,才能学习更多的知识。机器的误差随着模型维度的提升而降低。

戴文渊认为深度学习其实是一种将VC维做高的算法,强化学习是一个不断的把VC维做得越来越大的模型。以谷歌的阿尔法狗,如果只做深度学习,他是基于KJS的网站上棋局做的模型,那只有30万局棋,强化学习以后,通过自己和自己下,不断地去提升,最后能够达到8000万局棋,所以这就是强化学习要做的事情,这都是要把维度做大。

对于近期讨论的迁移学习,戴文渊表示并非所有场景都有大数据的,比如说医疗,有很多并没有那么多数据,迁移学习就是让小数据也能做到高纬度。例如机器只有你的数据,绝对不可能给你服务得好,服务得好是因为有了你的数据,可以找到很多跟你相近的数据。这是迁移学习的问题,因为每个人提供的数据是有限的,不是一个大数据,真正的帮助是来自于周围。

戴文渊认为人工智能要在产业落地需要五大条件,首先是要有数据,要有明确的业务定义,也需要懂算法,要懂如何去设计架构,要懂得如何设计产品。人工智能真正在产业落地,不仅仅是一个学科的事情,而是五项综合的结果。当前要解决的是把前提条件减少,能让我们解决科学家的问题,解决计算资源的问题,解决外部反馈的问题,能让一家企业只要有普通的IT专家就能够把模型做出来,让人工智能触手可及。(Sherwood)

以下为演讲实录:

大家下午好,非常高兴有机会在这边来分享我们过去做的一些事情以及经验,今天我分享的主题是AI赢在维度,AI在今天已经是非常火热的话题,但是在我自己进入到AI的时候,可能人工智能是我们当时选择当中最冷门的专业之一,计算机领域最冷门的专业之一,甚至我们在做第四范式这家公司的时候,都不太跟客户讲我们是人工智能的公司,我们得跟客户讲,我们是一家大数据价值挖掘或者发现的公司,不然的话他就会跟你说,人工智能我们不关心,人工智能我们没有预算。而今天人工智能包括会发现被大家讨论得比较多,深度学习,这些技术为什么会对我们有帮助,究竟背后在什么地方能够去改变这个世界,这其实是过去研究得比较多的,并且我自己的专业更多是在看不见摸不着的人工智能,而不是看得见摸得着的无人车这些东西。

我今天想分享一个案例,这是去年发生的一件事情,就是亚马逊的市值超过了沃尔玛,可能更多的人会觉得亚马逊超过沃尔玛是互联网颠覆传统企业的事,这背后其实是人工智能。沃尔玛是一家很先进的公司,大家在看数据挖掘教科书的时候会有一个案例叫啤酒和尿布,在这里我不分享这个案例,我想分享的是啤酒和尿布这个案例是从沃尔玛出来的,所以沃尔玛在上个世纪90年代已经做到了基于他的数据,使得每家店铺货柜的摆放不一样,这么先进的一家公司怎么会被亚马逊超过呢?我们换一个视角看这个问题,沃尔玛做到的是每家店的货柜摆放都是基于这家店的数据来定的,亚马逊做到的是什么?在2010年之前并不是比沃尔玛成功的事,他是基于他的数据能够让大家看到亚马逊的商品都是不一样的,亚马逊是给每个人开了一家店,亚马逊有3亿多的用户,而沃尔玛有一万多家店,所以我们看到亚马逊在解决一个比沃尔玛复杂3万多倍的问题,这个解决的思路其实双方是差不多的,都是开不同的店,开很多家不一样的店,但是要解决3亿多家店,就不是那么好解决,不太可能人工去设计布置3万多家店,这由谁来解决?由机器解决。机器比人擅长的是什么?机器没有精力的局限,人不是说如何去开更多的店,而是人没有精力开那么多店,用机器解决就是人工智能帮助亚马逊超过沃尔玛最重要的地方。

我们可以换一个角度看问题,这可能是平时不太会关注到的,在仓储这方面亚马逊也在解决更复杂的问题,沃尔玛的仓储是什么呢?我有一个仓库,所有的保管员、仓库配货员都会去仓库整理东西,但是亚马逊的机器人是你需要这个货物就搬过来,如果亚马逊有个N个配货员就有N种不一样的货架,这个摆放也是基于数据来做的,最后造成一个差别就是亚马逊比沃尔玛提升4倍。过去我们谈互联网,移动互联网,现在谈人工智能,其实互联网和移动互联网时代,有大量的空地,我们做一个网站,可以圈一批客户,我们做一个APP可以圈一批客户,而到今天这个机会已经没有了,未来的机会在哪?不是说还有更多的客户可以去圈,而是我可以做得更好。如果要让一家企业做得比竞争对手更好,就会把预算抢过来,就像亚马逊从沃尔玛那边抢过来一样。

还有一个案例是脸书,现在是很风光的状态,甚至都已经不记得它刚上市的状态,其实它刚上市的时候股价是一路往下走的,我在2012年面试过一些脸书的工程师,我面完了以后就知道他不是不能赚钱,而是他当时的技术不足以很高的变现效率。我当时问了工程师一个问题,脸书的广告有多少的变量?他们告诉我有两千多的变量,于是他就没有通过面试,因为我们当时已经做到了一百多亿的变量,这是巨大的差别。但是脸书发生了一个很大的差别,这是谷歌帮了他们,谷歌印度人与白人团队的战争,白人团队就到了脸书,帮助他们从变量数从两千多个提升多了两千多亿个变量,这一下子让脸书的变现能力大幅度提升,之后他们的财报都超过了华尔街的预期。所以这里很关键的地方是维度,你原来是用机器学习,也是用大数据做的广告模型,但是你做得不够高不够细,如果你能够把维度做得更高,你就能做得更精细,你的效率就能提升,获得更多的广告市场。

今天已经不再是亚马逊,谷歌或者BAT的时代,如果退回五六年前做AI,就只能去BAT,在美国可能是谷歌脸书这样的故事,今天其实有更多的企业拥有数据。这是我们给银行做的案例,是深圳的一家股份制商业银行,我们帮助他做什么呢?他们也有很多的营销数据,他们要去精准识别他们的客户当中有哪些是分期客户,历史上有大量的客户办分期或者不办分期,我们基于他的数据帮助他们更好的识别。这里面有一个比较重要的对比,过去他们不是不做营销,他们也是做营销的,但是他们的模型维度只有两百多个,而我们通过数据,通过机器学习,帮助他把维度提升到了五千万,从两百到五千万的精细营销,甚至我们可以帮他发现一些业务规律。当有一笔交易出现在某一个POS机,这个POS机一个月只有两百人使用的时候,是一个商机,我们能找到这么精细的场景,这种场景过去是不太可能通过人来解决的,这是机器能够用更高效、更低成本的方式来做到。

前面讲到几个案例,最大的差别就是过去我们在做的事情是低维的事情,而现在做的是高维的事情,这可能跟我在学生时代学习的一些基本原理是相违背的,过去我们学数据挖掘的时候,有一个叫奥卡姆剃刀原理,它讲的是尽可能简单,而不是做深维的事情,而我们现在不是做化繁为简,而是把问题做复杂。比如说奥卡姆剃刀原理区分红点和蓝点的时候,到底是选择绿色的线区分还是黑色线区分的时候,过去的教科书是说黑色比绿色好,现在我们认为是绿色比黑色好。为什么呢?过去的奥卡姆原理在做神经网络的时候,其实神经网络在50年代就又开始做,为什么我们要把神经网络去控制在三层以内,是那个年代的数据量不够,那个年代的数据不多,所以数据不足以支撑我们把数据做大。在数据量不大的时候,我们要化繁为简。而真正统计学习的基石并不是奥巴姆剃刀,不是说要控制三层,真正统计学习的原理叫VALIANT引理,他这个公式比较复杂,我们就理解成,其实要做到的是模型的复杂度和规则数或者变量数,这样一个数据量相匹配。

从这个原理我们会知道,为什么过去做的模型简单,为什么神经网络要深度学习,重点的原因就是现在数据量变大了,数据量变大了,模型的复杂度要和数据量成匹配,要相关。所以从VALIANT引理来看,可能全世界最有名的专家原理是牛顿三大定律,为什么他提的是三大定律而不是三百三千定律?就是人的记忆是有局限的,人脑里面是装不了大数据的,所以人能产出的就是简单的模型。为什么说过去的算法也很简单,过去做决策,要减到五千以内,其实很重要的原因是过去的数据链有限。我之前做的最大一个数据级是21578,因为数据量的限制所以当时做不了特别大的模型。但是今天整个时代变了,我们从互联网上可以获得大量的数据,传统企业其实也有大量的数据,比如说华大基因要测百万人的基因,中石油每天探测回来的地震波有500T,招行每月会有几亿的交易,这些都是非常大的数据。这时候如果还是套用valiant引理的话,数据量大了,模型会复杂。牛顿三大定律交给计算机做会怎么做?可能不是三大定律,可能是做速度区间划分,如果说总结出三千万个定律的时候可能就不需要相对论了,这就是大数据时代,我们怎么让机器做到一些不一样的事情。

从工业界来说,如果我们企业内部做人工智能指导企业经营,最重要的就是我们要去做高VC维模型,我们要不断的去提高模型的维度,使得training loss和test loss不断的降低。

前面讲的概念会比较偏理论一些,如果我们换一个角度,打个比方,VC维度是什么东西?大脑的维度大概就是大脑脑细胞的个数,所以为什么人比狗聪明,狗比蟑螂聪明,因为人的脑细胞比狗多,所以可以把VC维度理解为脑细胞维度,这就可以理解,为什么要把机器的维度做高,因为机器的维度也需要更多的脑细胞,才能更聪明,才能学习更多的知识。这边是一张图,这个是IMGENET的比赛,这个比赛大家关心最多的是黑线曲线,这是每年冠军的错误率,会发现随着每年冠军的错误率误差都在降低,但是很少有人关心黄色的曲线,黄色这条是每年冠军模型的VC维,会发现为什么会降低?是因为模型的维度在提升。随着模型维度的提升,我们的误差开始降低。

今天为什么要做深度学习?深度学习其实是一种更好的去把VC维做高的算法,而为什么要做强化学习?强化学习是一个不断的把VC维做得越来越大的模型。这边举例是谷歌的阿尔法狗,如果只做深度学习,他是基于KJS的网站上棋局做的模型,那只有30万局棋,强化学习以后,通过自己和自己下,不断地去提升,最后能够达到8000万局棋,所以这就是今天强化学习要做的事情,这都是要把维度做大。

现在也有在讨论迁移学习,迁移学习要做的是什么呢?不是所有场景都有大数据的,比如说医疗,有很多并没有那么多数据,再比如说这个场景,很多人觉得今日头条做的是个性化推荐,千人千面,因为今日头条是我们的客方,其实他们不是在做个性化,而是做迁移学习,所以我们的视角是在干什么事情,今日头条最强的是在于他能够拿和你相近的哪些人的数据来帮助到你,比方说你在今日头条,可能感觉你在今日头条用得已经很多,但是如果头条只有你的数据,绝对不可能给你服务得好,服务得好是因为有了你的数据,可以找到很多跟你相近的数据。所以它是一个迁移学习的问题,因为每个人提供的数据是有限的,不是一个大数据,真正的帮助是来自于周围,迁移学习就是说小数据也能做到高纬度。

另外一个例子是领域的迁移,前面是人之间的迁移,领域的迁移是什么呢?举例来说,像金融,我们现在关注了金融的资产,可能我做一个业务,资产几十亿上百亿,但是如果换一个视角看,上百亿的资产做小额信贷,数据量非常非常大。但是如果上百亿资产拿来做大额信贷,比如说房贷,每个人贷几百万并没有多大数据,这就带来大额信贷没有大数据就很难用现在的深度学习来做。迁移学习恰恰是可以帮助你利用各种各样的信贷数据,无论是大额信贷还是小额信贷,都能够帮助你来提升模型的效果,这是我们在银行做的,我们利用它的小额消费金额的数据,帮助他做汽车贷款,汽车贷款也是几十万一笔,没有大数据怎么能够帮助他们在小数据上,用别的领域的数据来提升效果,最后能够帮助他的营销提升。

所以迁移学习要解决的是小数据实现超高位。另外一个数据是专家经验,如果说既没有数据,又没有其他领域的知识,我们还可以用专家经验来降低数据的使用量,提升小数据的模型维度。

我们今天会发现很多的话题在讨论人脸识别或者无人车,个性化推荐,有人讨论深度学习、强化学习,最关键的是所有事情都在解决一个问题就是维度。最后分享我们这个公司其实是一群人工智能的科学家、工程师创立的,我们过去的背景其实是一直在帮助到企业,去利用人工技能的技术提升企业经营的效率以及业绩,这个团队曾经帮助过像百度、头条搭建起他们的人工智能系统,在百度也评测过我们的系统能够帮他们提升8倍的效率,头条的系统上线,客户的留存度超过了其他的竞争对手。但是今天出来并不是想干一件像百度或者头条这样的事情,因为我们想干另外一件事情,我们作为一个人工智能领域长期的从业者,从学术到工业界,我们希望把这个力量能够推广,能让这个社会在产业界发挥更大的发挥,所以我们希望帮助更多的企业,把人工智能能力推广出去,所以今天是在做人工智能服务每家企业的事情。我们也有一些行业的专家,这些是金融领域的专家,虽然说今天人工智能很火,看上去很高大上,我们也会谈高大上的话题,但是我们也要脚踏实地,不能光高大上不脚踏实地,所以我们也会注重每个行业的专家,能够把人工智能先进的技术和行业结合好。我们这个公司最骄傲的地方是机器学习领域的技术领先性,包括我们的架构师,设计过两万多台的机器学习系统,至今仍然是中国最大规模的机器学习系统。还有全球第一个商用深度学习系统的设计和全球最大的深度学习系统。

我们想把这个能力能够推广给全社会的每家企业,现在大家会说人工智能难做,机器人难做,或者顶级科学家少,其实顶级科学家并不少,每年毕业的博士生没有上万也有几千,但是为什么不能落地?人工智能要在产业落地需要五大条件,首先是要有数据,要有明确的业务定义,也需要懂算法,要懂如何去设计架构,要懂得如何设计产品,这里面就会发现,人工智能真正在产业落地,不是一个科学的事情,甚至是五项全能的事情,我们要解决的是把前提条件减少,能让我们解决科学家的问题,解决计算资源的问题,解决外部反馈的问题,能让一家企业只要有IT专家,普通的业务的专家,就能够把模型做出来。所以今天我们的定位是让AI触手可及,是针对每个人做的事情,而不是做一个只属于我们自己的动作。今天就分享到这里,谢谢大家。