☰

谷歌放大招：推出AI模型Gemini挑战GPT-4

（本文首发于《紫金商业评论》，授权紫金财经发布，转载请注明来源）

谷歌的全新“大杀器”Gemini终于来了！

当地时间12月6日，谷歌宣布推出人工智能模型Gemini，谷歌方面表示，这是其迄今为止功能最强大、最通用的大语言模型。

按照谷歌的说法，它可以像人类一样理解我们周围的世界，处理代码、文字、音频、图像和视频等，通通不在话下。此外，它还可以完成复杂的数学、物理等科学领域任务，并能理解和生成各种编程语言的高质量代码。

根据谷歌给出的基准测试结果，Gemini 在许多测试中都表现出了“最先进的性能”，甚至在大部分基准测试中完全击败了OpenAI的GPT-4。

消息一出，社交媒体瞬间炸了锅。英伟达AI科学家Jim Fan评论道：这是OpenAI王座的有力竞争者。

ChatGPT的挑战者来了

过去几年，谷歌一直把AI-first作为公司战略，2016年打败人类围棋冠军的AlphaGo便是出自谷歌之手。

自OpenAI一年前推出ChatGPT以来，谷歌一直在努力开发能够与这家公司相抗衡的人工智能软件，证明自己在人工智能领域的实力。

在今年5月举行的谷歌I/O全球开发者大会上，谷歌首次透露其正在开发的AI大模型Gemini，时隔7个月，Gemini终于来了。

据谷歌官方公众号消息，Gemini是由谷歌大脑团队开发的全新大模型，它具有更强的生成能力以及更高的可靠性，是迄今为止构建的最强大的AI大模型。

在谷歌发布的不同版本中，Gemini Ultra被描述为规模最大且功能最强大的模型，适用于高度复杂的任务；Gemini Pro则被视为适用于各种任务的最佳模型；而Gemini Nano则是专门为手机等设备设计的最高效的模型。

现场演示中，测试者给Gemini展示了一张煎蛋卷在平底锅中烹饪的图片，并说话问它煎蛋饼是否已经煮熟，它回答说：“它还没做好，因为鸡蛋还流着水。”

Gemini发布后，外界最关心的是其对OpenAI GPT4的挑战。在采访中，记者提问谷歌DeepMind产品副总裁Eli Collins(伊莱·柯林斯)：“Gemini能打败市面上包括GPT4在内所有的大模型吗?”

Eli Collins在回答中表示，团队一直在对Gemini模型进行严格的测试并评估其在各种任务中的性能。从自然图像、音频和视频理解到数学推理，在大型语言模型(LLM)研究和开发中广泛使用的32项学术基准中，Gemini Ultra的性能有30项都超过了目前最先进的水平。

为了证明自己的产品比OpenAI的ChatGPT更出色，谷歌更是甩出了数张成绩单。

根据谷歌给出的数据，在MMLU（大规模多任务语言理解）测试中，Gemini Ultra的得分率为90%，是第一个在 MMLU测试中超过人类专家的模型。作为对比，人类专家的得分率为89.8%，GPT4得分率为86.4%。

AI进入多模态时代

现今，绝大部分多模态大模型都是在大语言模型LLM之上生长出多模态的应用，而并非从头开始训练的多模态的大模型。不同于一般通用大模型主打的窗口对话，业界的共识是，多模态大模型才是未来。

相比之下，Gemini是一个真正原生的多模态大模型。

在设计之初，多模态就是Gemini计划的一部分，从最初的预训练数据开始，Gemini就在针对不同模态的模型进行训练，因此其功能在每个重大领域都达到了SOTA（State of the art，特指领先水平的大模型）。

基于此，谷歌称其多模态为原生多模态（natively multimodal），可以“无缝”理解、操作和组合不同类型的信息，拥有了强大的交互能力。

在推理方面，Gemini 1.0具有复杂的多模态推理能力，可帮助理解复杂的书面和视觉信息。这使得它具有独特的技能，可以在海量的数据中发掘难以辨别的知识内容。它拥有通过阅读、过滤以及理解信息，从数十万份文件中提取见解的卓越能力，将有助于在从科学到金融等多个领域以数字化速度实现新的突破。

而在编码方面，Gemini 1.0能够理解、解释和生成世界上最流行的编程语言（如Python、Java、C++和Go）的高质量代码。

与此同时，Gemini 1.0经过训练，可以同时识别并理解文本、图像、音频等，因此它能更好地理解具有细微差别的信息，回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理。

据悉，在Gemini 1.0版本中包含三个不同尺寸，分别是Gemini Ultra、Gemini Pro、Gemini Nano。

其中，Gemini最强大的满血版Gemini Ultra，还需要等待几个月才能和公众见面。谷歌称，Ultra版目前只会提供给部分客户、开发者、合作伙伴以及安全与责任专家使用。

相关资讯