苹果研究人员开发了一种名为ReALM的人工智能系统
苹果的研究人员开发了一种名为ReALM(参考解析为语言建模)的人工智能系统,旨在从根本上增强语音助手理解和响应命令的方式。
在一篇研究论文中(通过VentureBeat),苹果概述了一个新的系统,说明大型语言模型如何处理引用解析,其中包括破译对屏幕实体的模糊引用,以及理解对话和背景上下文。因此,ReALM可能会带来与设备更直观、更自然的交互。
指称解析是自然语言理解的重要组成部分,它使用户能够在对话中使用代词和其他间接指称,而不会产生混淆。对于数字助理来说,这种能力历来是一个巨大的挑战,受限于解释广泛的语言提示和视觉信息的需要。苹果的ReALM系统试图通过将复杂的引用解析过程转换为纯语言建模问题来解决问题。通过这样做,它可以理解对屏幕上显示的视觉元素的引用,并将这种理解整合到对话流中。
ReALM使用文本表示法重新构建屏幕的视觉布局。这包括解析屏幕上的实体及其位置,以生成捕获屏幕内容和结构的文本格式。苹果公司的研究人员发现,这一策略与针对指代解析任务的特定语言模型微调相结合,显著优于传统方法,包括OpenAI的GPT-4。
ReALM可以使用户能够根据当前屏幕上显示的内容更有效地与数字助理交互,而不需要精确、详细的说明。这有可能使语音助理在各种环境中更加有用,例如帮助司机在驾驶时导航信息娱乐系统,或者通过提供更容易和更准确的间接交互手段来帮助残疾用户。