谷歌放大招:推出AI模型Gemini挑战GPT-4
(本文首发于《紫金商业评论》,授权紫金财经发布,转载请注明来源)
谷歌的全新“大杀器”Gemini终于来了!
当地时间12月6日,谷歌宣布推出人工智能模型Gemini,谷歌方面表示,这是其迄今为止功能最强大、最通用的大语言模型。
按照谷歌的说法,它可以像人类一样理解我们周围的世界,处理代码、文字、音频、图像和视频等,通通不在话下。此外,它还可以完成复杂的数学、物理等科学领域任务,并能理解和生成各种编程语言的高质量代码。
根据谷歌给出的基准测试结果,Gemini 在许多测试中都表现出了“最先进的性能”,甚至在大部分基准测试中完全击败了OpenAI的GPT-4。
消息一出,社交媒体瞬间炸了锅。英伟达AI科学家Jim Fan评论道:这是OpenAI王座的有力竞争者。
ChatGPT的挑战者来了
过去几年,谷歌一直把AI-first作为公司战略,2016年打败人类围棋冠军的AlphaGo便是出自谷歌之手。
自OpenAI一年前推出ChatGPT以来,谷歌一直在努力开发能够与这家公司相抗衡的人工智能软件,证明自己在人工智能领域的实力。
在今年5月举行的谷歌I/O全球开发者大会上,谷歌首次透露其正在开发的AI大模型Gemini,时隔7个月,Gemini终于来了。
据谷歌官方公众号消息,Gemini是由谷歌大脑团队开发的全新大模型,它具有更强的生成能力以及更高的可靠性,是迄今为止构建的最强大的AI大模型。
在谷歌发布的不同版本中,Gemini Ultra被描述为规模最大且功能最强大的模型,适用于高度复杂的任务;Gemini Pro则被视为适用于各种任务的最佳模型;而Gemini Nano则是专门为手机等设备设计的最高效的模型。
现场演示中,测试者给Gemini展示了一张煎蛋卷在平底锅中烹饪的图片,并说话问它煎蛋饼是否已经煮熟,它回答说:“它还没做好,因为鸡蛋还流着水。”
Gemini发布后,外界最关心的是其对OpenAI GPT4的挑战。在采访中,记者提问谷歌DeepMind产品副总裁Eli Collins(伊莱·柯林斯):“Gemini能打败市面上包括GPT4在内所有的大模型吗?”
Eli Collins在回答中表示,团队一直在对Gemini模型进行严格的测试并评估其在各种任务中的性能。从自然图像、音频和视频理解到数学推理,在大型语言模型(LLM)研究和开发中广泛使用的32项学术基准中,Gemini Ultra的性能有30项都超过了目前最先进的水平。
为了证明自己的产品比OpenAI的ChatGPT更出色,谷歌更是甩出了数张成绩单。
根据谷歌给出的数据,在MMLU(大规模多任务语言理解)测试中,Gemini Ultra的得分率为90%,是第一个在 MMLU测试中超过人类专家的模型。作为对比,人类专家的得分率为89.8%,GPT4得分率为86.4%。
AI进入多模态时代
现今,绝大部分多模态大模型都是在大语言模型LLM之上生长出多模态的应用,而并非从头开始训练的多模态的大模型。不同于一般通用大模型主打的窗口对话,业界的共识是,多模态大模型才是未来。
相比之下,Gemini是一个真正原生的多模态大模型。
在设计之初,多模态就是Gemini计划的一部分,从最初的预训练数据开始,Gemini就在针对不同模态的模型进行训练,因此其功能在每个重大领域都达到了SOTA(State of the art,特指领先水平的大模型)。
基于此,谷歌称其多模态为原生多模态(natively multimodal),可以“无缝”理解、操作和组合不同类型的信息,拥有了强大的交互能力。
在推理方面,Gemini 1.0具有复杂的多模态推理能力,可帮助理解复杂的书面和视觉信息。这使得它具有独特的技能,可以在海量的数据中发掘难以辨别的知识内容。它拥有通过阅读、过滤以及理解信息,从数十万份文件中提取见解的卓越能力,将有助于在从科学到金融等多个领域以数字化速度实现新的突破。
而在编码方面,Gemini 1.0能够理解、解释和生成世界上最流行的编程语言(如Python、Java、C++和Go)的高质量代码。
与此同时,Gemini 1.0经过训练,可以同时识别并理解文本、图像、音频等,因此它能更好地理解具有细微差别的信息,回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理。
据悉,在Gemini 1.0版本中包含三个不同尺寸,分别是Gemini Ultra、Gemini Pro、Gemini Nano。
其中,Gemini最强大的满血版Gemini Ultra,还需要等待几个月才能和公众见面。谷歌称,Ultra版目前只会提供给部分客户、开发者、合作伙伴以及安全与责任专家使用。