AI颠覆人机交互 大厂押宝Agent

21世纪经济报道记者孔海丽 北京报道

AI Agent成了大厂必争之地。

近期,苹果、谷歌、Antropic、OpenAI纷纷发布AI Agent进展 ,希望用大模型技术改变人机交互方式,找到AI最恰当的落地方式。

这其中,国内AI企业智谱快速布局,领先海外巨头一个身位。

继10月25日首次上线可以代替人类操作手机和电脑的AI工具之后,11月29日,智谱发布了AI Agent系列更新。

主打AI接管手机的AutoGLM,已经可以实现跨APP、跨设备、长流程的复杂步骤。

所谓AutoGLM,是指接收人类简单语音指令,自动执行手机端复杂任务,任务执行过程中可以持续与用户进行交互反馈。

根据简单语音指令,AutoGLM可以在微信、小红书、美团、淘宝、抖音、携程等APP上执行发布消息、查找店铺、选购商品、路线导航、订机票、订车票、订酒店等操作。

银河证券近日发布研报指出,AI Agent的崛起正重塑AI产业链并带来投资新机遇,未来,AI Agent模型将改变C端流量入口的分配,或许还会取代APP的地位,并与硬件争夺流量入口。

智谱CEO张鹏演示了“AI发给人类的第一个红包”,他发出“面对面建群并发布200个红包”的语音指令之后,AutoGLM自动执行了打开微信、建群、发群红包的系列步骤。

当然,输入密码还是需要人类确认的。

据介绍,AutoGLM可以实现触控执行、内容理解、内容生成等大类别任务。

目前,AutoGLM覆盖了手机端主流生活场景APP,包括微信、小红书、抖音、微博、美团、大众点评、饿了么、淘宝、京东、拼多多、高德地图、百度地图、12306、携程、去哪儿等。

另外,针对特殊场景,也可以实现跨APP操作。

比如,“在小红书上搜索北京比较正宗的餐厅,找一家合适的在大众点评上定位,并在微信上发送给老婆,告诉我它在美团上有哪些推荐菜,帮我高德导航过去”;“对比携程和去哪儿下周三从昆明到乌鲁木齐的航班价格”。

GLM-PC是面向PC端的自主Agent,目前开放第一阶段的内测场景,包括会议替身、文档处理、网页搜索与总结、远程和定时操作、隐形屏幕等。

不过,智谱方面坦陈,由于PC和PC任务的复杂程度,目前大模型的能力距离真正代替用户办公还有一定距离。GLM-PC在当前版本下,用户仍需要输入非常精准的指令。

大模型正在改变人机交互方式,而AI Agent是行业内公认的、最具潜力的AI落地方式。

或许,AI Agent可以将移动互联网时代的“人适应机器”,推进到AI时代的“让机器适应人”。

苹果(Apple Intelligence)、Anthropic(Computer Use)、谷歌(Jarvis)和 OpenAI(Operator)等企业也已经把Agent作为2025年的业务重点。

AI Agent能够让大模型完全执行人类的工作流程,适应、学习、迭代,与其他系统和人类协作,并端到端地完成任务。

在智谱CEO张鹏看来,现阶段,AutoGLM相当于在人与应用之间添加一个执行的调度层,大幅改变了人机交互形式。

张鹏认为,大模型发展会经过五个阶段,分别是L1语言能力、L2逻辑能力(多模态能力)、L3使用工具的能力、 L4自我学习能力、 L5探究科学规律。

目前,Agent会极大地提升大模型的L3能力,同时开启对L4自我学习能力的探索。

“而且,Agent可以看作是大模型通用操作系统LLM-OS的雏形,未来有可能实现原生的人机交互。”张鹏说。

从产业端来看,AI Agent有广阔的市场机遇。银河证券预计,到2028年,中国AI Agent的市场规模将激增至8520亿元,年复合增长率达72.7%。

“AI Agent也会推动APP生态逐渐向端侧生态转变,成为AI应用发展新趋势。”银河证券在研报中指出,AI Agent通过实现自然语言与硬件的交互,解决端侧AI痛点,可能改变C端流量入口的分配机制。

业界对此有共识。智谱COO张帆也认为,AI Agent有望革新智能设备的生态,手机+AI会变成随身个人智能助理,PC+AI有机会成为全新生产力工具,汽车+AI会打开汽车更大的想象空间。