研究人员:生成式人工智能在本科法律考试遇挫

自生成式人工智能广泛向公众提供至今,已将近两年。

一些模型展现出极大的潜力,并通过了学术和专业考试。

例如,GPT-4 的得分高于参加美国律师资格考试的考生的 90%。这些成功导致人们担心人工智能系统可能也会轻松通过大学水平的评估。然而,我的近期研究呈现出一幅别样的画面,表明它并非某些人所认为的那种学术强者。

为了探究生成式人工智能的学术能力,我对它在卧龙岗大学本科刑法期末考试中的表现进行了研究——这是学生获取学位时需要通过的核心科目之一。

考试时长为三个小时,分为两个部分。第一部分要求学生对一个关于刑事犯罪的案例研究进行评估——以及成功起诉的可能性。第二部分包括一篇短文和一组简答题。

测试问题对多种技能进行了评估,包括法律知识、批判性思维以及构建有说服力的论点的能力。

学生不允许在回答中使用人工智能,并在监督环境中进行评估。

我使用了不同的人工智能模型来为考试问题生成十个不同的答案。

有五份试卷仅仅是把考试问题粘贴进人工智能工具生成的,没有任何提示。

对于另外五份,我提供了详细的提示以及相关法律内容,看看这样做能否改善结果。

我在正式的考试册上手写了由人工智能生成的答案,并使用了假的学生姓名和号码。

重要的是,在进行评分时,导师们并不知道这其中有十个考试答案是由人工智能生成的。

在评分结束后对导师进行采访时,他们当中没有人怀疑任何答案是由人工智能生成的。

这显示出人工智能有模仿学生回答的可能,同时也表明教育工作者难以察觉此类论文。

但总体来说,由人工智能生成的论文表现不佳。

虽然人工智能在论文式问题方面表现不错,然而在应对需要深入进行法律分析的复杂问题时却显得颇为吃力。

这意味着,尽管人工智能能够模仿人类的写作风格,但其缺乏复杂法律推理所需要的那种细致入微的理解。

学生们考试的平均分是 66%。

那些没有提示的人工智能论文,平均而言,仅胜过 4.3%的学生。两篇勉强及格(及格分数为 50%),三篇不及格。

就使用了提示的论文而言,平均而言,它们胜过 39.9%的学生。其中三篇论文表现不太好,分别获得 50%、51.7%和 60%,但有两篇表现相当好。一篇得分为 73.3%,另一篇得分为 78%。

这些发现对教育和专业标准都具有重要意义。

尽管大肆宣传,但生成式人工智能在像这次法律考试这样对智力要求很高的任务中,还远不能取代人类。

我的研究显示,人工智能应该更多地被视为一种工具,并且如果使用得当,它可以增强人类的能力。

因此,学校和高校应该专注于培养学生与人工智能协作以及批判性分析其输出结果的技能,而不是依赖这些工具简单地给出答案。

此外,为了使人工智能与学生之间的协作成为可能,我们可能不得不重新思考一些我们对教育和评估的传统观念。

例如,我们可以考虑,当学生提示、核实和编辑人工智能生成的作品时,这就是他们的独创贡献,并且仍应被视为学习中有价值的一部分。