OpenAIo1非GPT-4o直接进化;微软发布 WindowsAgentArena基准框架;英伟达开源小语言AI模型|极新早报
“未来不是固定在那里等你趋近的,而是要靠你创造。未来的路不会静待被发现,而是需要开拓,开路的过程,便同时改变了你和未来。”
文|小鱼
编辑 | 云舒
出品|极新
要点速览
1、 OpenAI o1 非 GPT-4o 直接进化,在成本与性能上妥协
2、 微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能
3、 英伟达开源 Nemotron-Mini-4B-Instruct 小语言 AI 模型:专为角色扮演设计,9216 MLP、上下文长度 4096 词元
4、 百度联盟大会发布首个智能体联盟解决方案
5 、 恒生指数收盘涨逾1% 美的集团港股上市首日涨近8%
6、微软计划回购至多600亿美元股票并提高派息
▌IPO/投融资
1、AI芯片研发商「中昊芯英」完成2.5亿人民币战略投资,投资方为艾布鲁。
中昊芯英是一家AI芯片研发商,致力于研发全新架构、专为AI训练设计的高性能芯片,为AI企业提供训练效率及模型精度双提升的解决方案。
2、家庭电器生产制造商「美的集团」完成270亿港币IPO轮融资,公开发行。
美的集团是一家家庭电器生产制造商,致力于为用户提供多元化的家用电器产品,种类包括空调、冰箱、洗衣机、厨房家电及各类小型家电,并通过机器人及工业自动化设备为用户打造舒适的家具环境。
3、半导体晶圆级封装设备提供商「华芯智能」完成数千万人民币A+轮融资,投资方为霞印投资。
华芯智能是一家半导体晶圆级封装设备提供商,集研发、生产、销售、服务于一体。致力成为全球优质的一站式半导体晶圆级封测分选检测和平板级封装贴晶机方案供应商,助力中国自主芯片振兴。主营产品是先进封测设备,WLCSP专用设备,Panel 级封测设备,Fanout封装设备,SIP封测专用设备。
4、工业自动化产品研发商「莫洛奇」完成数千万人民币A轮融资,由东运创投、 松禾资本领投。
莫洛奇是一家工业自动化产品研发商,其主营项目:磁悬浮智能柔性传输线、直驱电机、半导体设备精密运动平台以及纳米级气浮平台。
▌科技要闻
1、OpenAI o1 非 GPT-4o 直接进化,在成本与性能上妥协
9 月 14 日消息,OpenAI 已经推出了新模型 OpenAI o1 的两大变体 ——o1-preview 与 o1-mini,这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙・威利森(Simon Willison)专门发文,深入剖析了这些新模型背后的设计理念与实现细节,揭示了它们在技术上的独特优势与不足。威利森表示,o1 并不是简单的 GPT-4o 直接升级版,而是在强化“推理”能力的同时,做出了成本与性能上的权衡。
1. 训练思维链
OpenAI 的声明是一个很好的起点:“我们研发了一系列新型人工智能模型,旨在让它们在做出响应前花更多时间思考。”
这些新模型可以视为思维链提示策略的深化拓展 ——“分步思维”策略的具体实践。实际上,人工智能社区在这个领域已探索了数年,这一策略首次在 2022 年 5 月发布的论文《大语言模型是零样本推理器》(Large Language Models are Zero-Shot Reasoners)中提出。
OpenAI 发布的《与大语言模型共学推理》(Learning to Reason with LLMs)一文详细阐述了新模型的训练方法,揭示了其能力提升背后的秘密。文中指出:
“我们的大规模强化学习算法精心设计了训练流程,使模型在高效利用数据的同时,能够熟练运用思维链进行深度思考。我们发现,随着强化学习训练时间的增加以及模型在测试时分配更多思考时间,o1 的性能持续显著提升。值得注意的是,这种扩展方法的限制与大语言模型预训练中的挑战有很大不同,我们正继续深入探索这些新界限。”
通过强化学习的训练,o1 不仅学会了优化其思维链的使用,还掌握了自我提升的关键技能。o1 能够识别并纠正错误,将复杂难题拆解为一系列更易处理的子任务。当现有方法失效时,它会尝试不同的方法直至找到最佳解法。这一过程极大提升了模型的推理能力。
实际上,这标志着模型在处理复杂提示方面实现了质的飞跃。面对那些需要回溯与深入“思考”的任务时,模型能够展现出更加出色的表现,而不再仅仅依赖于下一个 Token 预测。
威利森指出,虽然他对“推理”一词在大语言模型中的定义有保留,但鉴于 OpenAI 已明确采用此术语,并成功表达了新模型致力于解决的核心问题,他认为这种表达在此情境下是恰当且有效的。
2. 来自 API 文档的底层细节
关于新模型及其设计权衡,OpenAI 在 API 文档中提供了许多有趣的细节:
对于依赖图像输入、函数调用或追求即时响应速度的应用场景,GPT-4o 及其精简版 GPT-4o mini 仍是理想选择。然而,如果你的项目需要深度推理能力,且能够适应较长的响应时间,那么 o1 模型无疑是更优的选择。
威利森从 OpenAI 的文档中摘录了几个关键点:
API 访问权限:目前,o1-preview 与 o1-mini 的访问仅限于五级账户用户,且 API 积分累计需达到至少 1,000 美元方可解锁。
系统提示限制:模型集成了现有的聊天完成 API,但仅支持用户与助手之间的消息交互,不支持系统提示功能。
其他功能限制:当前模型不提供流处理支持、工具集成、批处理调用或图像输入。
响应时间:鉴于模型解决问题所需推理量的不同,处理请求的时间可能介于几秒至几分钟不等。
尤为引人注目的是“推理 Token”的引入。这些 Token 在 API 响应中不可见,却扮演着至关重要的角色,是驱动新模型能力的核心,且作为输出 Token 计费并计数。鉴于推理 Token 的重要性,OpenAI 建议为充分利用新模型的提示预留约 25,000 个推理 Token 的预算。
为此,输出 Token 的配额显著提升:o1-preview 的配额增至 32,768 个,而 o1-mini 则高达 65,536 个。相比于 GPT-4o 及其 mini 版(两者的配额均为 16,384 个),这一增加为用户提供了更多资源。
API 文档还提供了一个新颖且关键的提示,旨在优化检索增强生成(RAG):在整合附加上下文或文档时,应严格筛选,保留最相关的信息,以避免模型生成过于复杂的响应。这与 RAG 的传统做法截然不同,后者倾向于将大量潜在相关文档纳入提示。
3. 隐藏的推理 Token
令人遗憾的是,推理 Token 在 API 调用中处于隐藏状态。用户需要为这些 Token 支付费用,却无法得知其具体内容。OpenAI 对此政策的解释如下:
“隐藏思维链的初衷在于确保模型‘思维’过程的独立性和表达自由,避免外界干预或操控其推理逻辑。展示模型的完整思维链可能暴露不一致性,并影响用户体验。”
这项决策基于多重考量:一方面是为了确保安全与策略的遵从性,另一方面则是为了保持技术上的竞争优势,避免竞争对手利用推理成果进行训练。
作为对大语言模型发展持保留意见的一方,威利森对此决定并不满意。他认为,在追求技术创新的同时,保持可解释性与透明度至关重要。关键细节的隐藏,意味着对透明度的一种削弱,感觉像是一个倒退的举措。
4.示例解读
OpenAI 在“思维链”部分提供了许多示例,包括 Bash 脚本生成、填字游戏解答和化学溶液 pH 值计算等,初步展示了这些模型在 ChatGPT 用户界面下的思维链能力。但它并未展示原始的推理 Token,而是通过一种优化机制,将复杂的推理步骤简化为易于理解的摘要。
OpenAI 还额外提供了两份文档,展示了更为复杂的例子。在“使用推理进行数据验证”一例中,o1-preview 演示了如何在 11 列 CSV 数据中生成示例,并通过多种策略验证数据的正确性;而“使用推理生成例程”则展示了如何将知识库文章转化为大语言模型能够解析并执行的标准化操作流程。
威利森也在社交媒体上征集了许多 GPT-4o 未能成功应对却在 o1-preview 上表现出色的提示案例。其中两个尤为引人注目:
字数计数挑战:“你对这个提示的回答有多少字?” o1-preview 模型在给出“这个句子里有七个单词”之前,耗时约十秒并经历了五次推理过程。
幽默解析:“解释一下这个笑话:‘两头牛站在地里,一头牛问另一头:‘你怎么看疯牛病?’ 另一头说:‘无所谓,我是直升机。’” o1-preview 给出了既合理又详细的解释,而其他模型对此无解。
尽管如此,优质的示例仍然较少。OpenAI 研究员 Jason Wei 指出,尽管 o1 在 AIME 和 GPQA 测试中的表现非常强大,但这种效果并不总是直观可感。找到让 GPT-4o 失手而 o1 表现出色的提示并不容易,但当你找到时,o1 的表现堪称神奇。大家都需要寻找更具挑战性的提示。
另一方面,沃顿商学院管理学教授、人工智能专家伊森・莫里克(Ethan Mollick)通过几周的预览体验,对 o1 给出了初步评价。他特别提到了一个填字游戏示例,其中 o1-preview 模型展现了清晰的推理步骤,如指出 1 Across 与 1 Down 的首字母不匹配,并主动建议替换答案以确保一致性。
5.推理模型的未来
人工智能领域这一新进展带来了诸多待解之谜与潜在机遇,社区正逐步探索这些模型的最佳应用场景。在此期间,威利森预计 GPT-4o(及 Claude 3.5 Sonnet 等模型)将继续发挥重要作用。同时,我们也将见证这些推理模型如何扩展我们的思维模式,解决更多前所未有的任务。
此外,威利森期待其他 AI 实验室,特别是开放模型权重社区,能够积极跟进,利用各自独特的模型版本复现并深化这些思维链推理的成果。(IT之家)
2、谷歌推出 DataGemma:基于可信数据源提高 AI 准确度,减少幻觉
9 月 15 日消息,科技媒体 NeoWin 昨日(9 月 14 日)发布博文,报道称微软官方推出了 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能。
Windows Agent Arena 基准框架
微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 浏览器,Visual Studio Code 等编程应用,记事本、时钟和画图等预装 Windows 应用,VLC 等主流媒体播放器。
翻译部分微软官方博文内容如下:
微软研究院也打造了自己的多模态 Agents Navi,并在 Windows Agent Arena 基准测试中对其进行了试验。
它被要求根据特定文本提示执行任务,例如:“你能将我正在浏览的网页转换成 PDF 文件并放置在我的主屏幕上吗,就是那个桌面?”结果显示,Navi 的平均任务成功率为 19.5%,相较于人类 74.5% 的表现评分,这一成绩仍显偏低。(IT之家)
3、英伟达开源 Nemotron-Mini-4B-Instruct 小语言 AI 模型:专为角色扮演设计,9216 MLP、上下文长度 4096 词元
9 月 15 日消息,科技媒体 marktechpost 昨日(9 月 14 日)发布博文,报道称英伟达开源了 Nemotron-Mini-4B-Instruct AI 模型,标志着该公司在 AI 领域创新又一新篇章。
小语言模型的大潜力
Nemotron-Mini-4B-Instruct AI 模型专为角色扮演、检索增强生成(RAG)及函数调用等任务设计,是一个小语言模型(SLM),通过蒸馏(distilled)和优化更大的 Nemotron-4 15B 获得。
英伟达使用剪枝(pruning)、量化(quantization)和蒸馏(distillation)等先进 AI 技术,让该模型更小巧高效,尤其适用于设备端部署。
这种缩小化并未影响模型在角色扮演和功能调用等特定场景下的性能,让其成为需要快速按需响应的应用的实用选择。
该模型在 Minitron-4B-Base 模型上微调,采用了 LLM 压缩技术,最显著的特点之一是其能够处理 4096 个上下文窗口词元(token),能够生成更长且更连贯的回复。
架构与技术规格
Nemotron-Mini-4B-Instruct 以其强大的架构著称,确保了高效性与可扩展性。
该模型的 Embedding Size(决定了转化后的向量的维度)尺寸为 3072,多头注意力(Multi-Head Attention)为 32 个,MLP 中间维度为 9216,在处理大规模输入数据集时,仍能以高精度和相关性作出响应。
此外,模型还采用了组查询注意力(GQA)和旋转位置嵌入(RoPE)技术,进一步提升了其处理与理解文本的能力。
该模型基于 Transformer 解码器架构,是一种自回归语言模型。这意味着它根据前面的标记生成每个标记,非常适合对话生成等任务,其中对话的连贯流畅至关重要。
角色扮演与功能调用应用
Nemotron-Mini-4B-Instruct 在角色扮演应用领域表现尤为突出。凭借其庞大的标记容量和优化的语言生成能力,它可以嵌入到虚拟助手、视频游戏或任何其他需要 AI 生成关键响应的交互式环境中。
英伟达提供了一种特定的提示格式,以确保模型在这些场景中,尤其是在单轮或多轮对话中,输出最佳结果。
该模型还针对函数调用进行了优化,在 AI 系统必须与 API 或其他自动化流程交互的环境中变得越来越重要。生成准确、功能性响应的能力使得该模型非常适合 RAG 场景,即模型需要创建文本并从知识库中检索和提供信息。(IT之家)
4、百度联盟大会发布首个智能体联盟解决方案
9 月 16 日消息,9 月 12 日,2024 年百度联盟大会在深圳召开。百度向联盟伙伴展示了智能体在开发平台、分发场域以及变现解决方案等方面的全链路布局。
除此之外,百度还对联盟生态进行了全面升级,发布智能体联盟变现解决方案以及“分发 + 变现”一体化解决方案,为联盟伙伴及智能体开发者带来新场景、新流量及新变现机会。
据百度官方透露,百度文心智能体平台已经吸引了 10 万家企业、60 万名开发者,覆盖了上百个应用场景。
在智能体分发上,百度形成了以搜索为代表的智能体分发池。百度副总裁、百度搜索总经理赵世奇用关键词“1+N”总结了智能体在百度搜索的分发策略。“1”代表搜索消费场景内的分发,“N”意为多终端场景的覆盖,意味着开发者仅需一次开发,便能触及百度搜索及文小言、小度、贴吧、网盘等场景。目前,智能体在百度生态的 8 月日均分发量突破千万。
据IT之家 9 月 4 日报道,百度官宣文心一言 App 正式升级为文小言,定位百度旗下“新搜索”智能助手。
百度副总裁、AI 创新业务负责人薛苏现场透露,截至目前,文小言月活跃用户已超千万,已有百万量级智能体在平台分发。(IT之家)
▌股市风云
1、恒生指数收盘涨逾1% 美的集团港股上市首日涨近8%
9月17日,港股市场全线爆发。截至收盘,香港恒生指数上涨1.37%,恒生中国企业指数上涨1.41%,恒生科技指数上涨1.12%。银行、耐用消费品与服装、能源行业领涨港股市场。焦点股方面,腾讯控股涨0.58%,美团-W涨1.66%,理想汽车-W涨6.26%,康方生物涨0.84%。佳兆业集团早盘一度涨近40%,收盘涨17.44%。美的集团在港股上市首日涨超7%。(中国证券报)
2、微软计划回购至多600亿美元股票并提高派息
微软宣布最高600亿美元的股票回购计划并将季度派息从每股75美分提高到每股83美分。回购计划没有截止日期。汇总的数据显示,本轮回购计划占该公司当前市值的1.9%。(财联社)
▌好文推荐
“国内卖会员,想赚大钱很难。"
更多干货分享敬请关注我们的公众号与视频号~超多精彩对话内容等待您的解锁!
扫码加入【极新】科技行业交流群,探索科技前沿趋势,本群适合创始人、CXO、行业高管。
关于极新:
极新是垂直于产业AI的创投和行业研究媒体,致力于陪伴和记录科技企业进步和产业成长。已与多家平台和创新企业深度对话和合作,包括华为云、阿里云、百度智能云、金山云、飞书、火山引擎、钉钉、东软、Zoho、容联云、百家云等平台企业,以及智谱AI、百川智能、格灵深瞳、深势科技、百图生科、瑞莱智慧、创客贴、生数科技等高成长公司。
2024投融资趋势追踪:| | | | | |
深度对话·创新&增长的源动力:| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |