大型语言模型,能识破操纵性语言吗?
就像如今我们生活中的大多数事物那样,人际间的对话也实现了数字化。
“随着私人对话转移至消息应用程序和社交媒体,人们在网络上遭受精神和情感操纵的情形愈发增多,”计算机科学专业二年级博士生王宇新说,他与计算机科学助理教授索罗什·沃苏吉以及生物医学数据科学和流行病学教授、精准健康与人工智能中心主任赛义德·哈桑普尔合作。
王宇新把诸如“煤气灯效应”这类的精神操纵定义为一种言语虐待的形式,其故意为了个人利益去控制或影响某人的思想。
来自雇主或主管的职业破坏方面的威胁,或者有毒关系中的情感勒索,均是常见的例子。
王宇新表示,由于这种语言较为含蓄并且依赖于上下文,对于大型语言模型而言,识别操纵性语言或许极具挑战性。
这些模型为我们每天用于交流,以及用于消费和创建内容的数量迅速增加的应用程序提供了动力。
为了填补这一空缺,王和她的合作者编制了一个新的对话数据集,该数据集展现或凸显了对话中的操纵行为,并借助该数据集来剖析最先进的人工智能模型在识别操纵性内容方面的有效性。
他们的研究结果于 8 月在计算语言学协会的年会上予以公布。
MentalManip 数据集包含 4000 组虚构的对话,这些对话是从康奈尔电影对话语料库的电影剧本中提取的一对角色之间的。研究人员运用了两种策略来对数据源进行过滤,并找到带有操纵元素的对话。
首先要手动编制一份包含 175 个关键短语的列表,这些短语经常出现在精神操纵语言中,例如“你太敏感了”或“我认识你的经理”。对源数据中的对话进行梳理,从而查找与这些短语的匹配项。第二种方法是通过监督学习训练一个模型来区分可能具有操纵性的对话。
然后,研究人员测试了一些著名的大型语言模型,包括 OpenAI 的 GPT-4 和 Meta 的 Llama-2。这些模型的任务在于确定研究人员提供的对话里是否包含操纵元素。
在第二个实验中,要求模型在看到一些示例之后,确定三个对话中的哪一个包含操纵性语言。最后,在测试模型识别操纵的能力之前,利用新数据集中带有标签的操纵性语言示例来对模型进行微调。
研究人员发现,在这三个实例中,这些模型都无法胜任对操纵性内容进行分类的任务。
这些模型,尤其是较小的大型语言模型,往往把一般的毒性和粗言秽语认定为操纵,这显示出它们过度敏感。它们在检测心理操纵方面的总体表现不尽人意,而且在现有的相关心理健康或毒性检测数据集上对模型进行微调,情况也没有改善。对对话中的句子进行分析表明,它们在语义上难以区分,这可能是阻碍模型性能的一个因素之一。
王希望他们的数据集和初步成果能激发更多有关这个主题的研究。王说,经过训练能够可靠识别操纵的大型语言模型能够成为早期干预的宝贵工具,警告受害者对方试图操纵他们。
据沃索吉所说,识别操纵意图,特别是那种隐性的,需要一定程度的社交智能,然而当前的人工智能系统恰恰缺乏这种智能。
“我们的工作显示,虽说大型语言模型正变得愈发复杂,可它们在理解人类对话中的操纵细微之处时,依旧存在困难,”沃索吉说。