阿拉斯加教育官员借人工智能出错引质疑

在阿拉斯加州的安克雷奇(据《阿拉斯加灯塔》报道) - 据《阿拉斯加灯塔》的克莱尔·斯特雷普尔报道,该州的最高教育官员依靠生成式人工智能起草了一项关于阿拉斯加学校手机使用的拟议政策,这致使一份州文件引用了据称不存在的学术研究成果。

该文件并未披露在其构思过程中使用了人工智能这一情况。至少部分由人工智能生成的错误信息最终被呈现在州教育和早期发展委员会成员面前。

教育领域和政府其他地方的政策制定者依赖有充分依据的研究。专员使用虚假的人工智能生成内容表明,在使用人工智能工具方面缺乏州政策,而公众的信任取决于知道用于为政府决策提供信息的来源不仅正确,而且真实。

该部门的一位发言人最初将这些错误的来源称作“占位符”。在本月于马塔努斯卡 - 苏西特纳自治市举行的州教育委员会会议之前,在该部门网站上发布的一份决议的正文中到处都引用了这些来源。

后来,州教育专员迪娜·毕晓普表示,它们是她使用生成式人工智能创建的初稿的一部分。她说,她在会议前意识到了自己的错误,并向委员会成员发送了正确的引用。委员会通过了该决议。

然而,在该部门后来分发的更正文件中,存在错误的引用以及其他所谓的“人工智能幻觉”的痕迹,毕晓普称该文件已获委员会投票通过。

该决议指示教育和早期发展部制定有关手机限制的示范政策。在该州网站上发布的决议引用了据称在列出的网址无法找到,且其标题在更广泛的在线搜索中也未出现的学术文章。

该文件的六个引用中有四个似乎是在科学期刊上发表的研究,但却是错误的。该州引用的期刊确实存在,但该部门引用的标题未在列出的期刊期中发表。相反,在列出的链接上发布的是关于不同主题的研究。

埃莉·帕夫利克(Ellie Pavlick)是布朗大学计算机科学和语言学的助理教授,也是谷歌 Deepmind 的研究科学家,她审查了这些引文,并表示它们看起来像她见过的其他由人工智能生成的虚假引文。

“这正是人们所看到的那种由人工智能生成的幻觉引文的类型。”她说。

她说:“通常会看到这类虚假引文,它们会有真实的期刊,有时甚至是真实的个人,名字看似合理,但却并不对应真实的事物。”

该文件的参考部分包括网址,这些网址指向了关于不同主题的学术文章。该州的网址不是指向《人类行为中的计算机》杂志中的“禁止手机可提高学生成绩:来自准实验的证据”,而是指向了该出版物中的另一篇文章“Facebook 上的性化行为”。对正确标题的搜索没有任何结果。该州称在《教育心理学杂志》中可以找到的两项研究也是如此。

在阿拉斯加灯塔(Alaska Beacon)要求该部门提供虚假研究后,官员们更新了在线文件。当被问及该部门是否使用了人工智能时,发言人布莱恩·扎达利斯(Bryan Zadalis)表示,这些引文只是在插入正确信息之前的占位符。

他在周五的一封电子邮件中写道:“在起草过程中列出的许多来源都是占位符,是在最终来源接受审查、比较和审核时使用的。这是我们许多人已经习惯的工作流程。”

毕晓普后来称,这是一份被错误发布的初稿。

但在毕晓普所说的经董事会审查并投票通过的整个文件中,仍能发现人工智能生成文件的痕迹。

该部门更新的文件仍引导读者参考美国心理协会一项虚构的 2019 年研究,以支撑该决议中“学校限制手机使用的学生压力水平更低,学业成绩更高”这一说法。

虽然该文件中这一说法的来源有误,但有一项研究显示,智能手机对课程理解和幸福感有影响——不过研究对象是大学生而非青少年。

发表该研究的纽约理工学院研究员兼教授梅丽莎·迪马蒂诺称,尽管她尚未对手机对青少年的影响展开研究,但她觉得自己的研究结果在这一人群中会更加显著。

她说,正如该州虚假研究的标题所暗示的那样,实际研究青少年的难题在于,研究人员必须获得学校的许可才能对学生展开研究。

在阿拉斯加灯塔多次询问来源的情况下,该部门于周五在网上更新了文件。更新后的参考文献列表用马来西亚在线教育技术杂志的一篇真实文章替换了 100 多年历史的《教育心理学杂志》中那篇不存在的文章的引用。

毕晓普称,这些错误“毫无恶意”,此次事件也未带来明显损害。

然而,这些错误引用的确表明了人工智能错误信息何以能够影响州政策——特别是当高级别州官员把该技术用作起草的速记手段,致使错误最终出现在公共文件和官方决议里。

教育部发言人的声明显示,在该部门使用这类“占位符”并非鲜见。倘若这些占位符通常为人工智能生成的内容,此类错误极易再度出现。

人工智能专家帕夫利克称,这种情形引发了更广泛的思考,也就是人们从哪里获取信息以及错误信息的传播情况。

她说:“我觉得这着实是个令人忧心的问题,特别是当有权威地位的人使用这种技术时,因为原本就存在的信任度会因此降低,对吧?只要有几次信息是假的,不管是不是有意的,那人们就很容易把啥都当成假的。”

在这个例子里,科学文章——长期以来被认可的借助研究、数据和事实来验证论点的形式——遭到了质疑,这或许会削弱其作为可信资源的程度。

她说:“我认为对很多人来讲,他们觉得人工智能在一定程度上是搜索的替代品,因为在某些方面感觉挺相似的。就像,他们在电脑跟前,在文本框里输入,然后就得到这些答案。”

她提到了去年的一个法律案件,在这个案件中,一名律师使用了一个人工智能聊天机器人来撰写文件。该聊天机器人引用了虚假案例,而律师随后在法庭上使用了这些案例,这导致法官考虑对该律师进行惩罚。帕夫利克称,那里出现的那些错误令她联想起了 DEED 文件中的情况。

她说,令人担忧的是,该技术已被广泛运用,然而公众对其工作原理的了解却未相应增多。

“我不知道这究竟是谁的责任——或许更多地落在我们,也就是人工智能社区这边,得更好地开展教育工作,因为很难去指责人们不理解,没意识到他们需要以有别于其他搜索工具、其他技术的方式来对待这个。” 她说道。

她说,提升人工智能素养是避免技术被滥用的一种途径,不过对于怎样做到这一点,目前还没有得到普遍认可的最佳做法。

“我觉得像这类例子,希望能有所升级,从而让整个国家、整个世界对这一结果更感兴趣。” 她说道。