【编译】日常生活的算法审计:理解用户对算法伤害性的揭露

作者:

HongShen, Alicia DeVos, Motahhare Eslami and Kenneth Holstein(美国卡内基梅隆大学)

编译:朱泓宇

编校:王沛楠

原文载于Proc. ACM Hum.- Comput.Interact,2021年10月刊

Everyday Algorithm Auditing: Understanding the Powerof Everyday Users in Surfacing Harmful Algorithmic Behaviors

算法系统对人们日常生活的多个方面形成了强有力的渗透和控制,但这一系统却是不可靠的。大量研究揭示出算法系统的社会负面影响,它加强了既有的偏见、歧视和社会不平等状况并带来了新的问题。在此基础上,针对算法系统正式的审计开始出现。

正式算法审计的现有路径主要来自计算机支持的协同工作(CSCW)、人机交互(HCI)和机器学习(ML)等领域,同时亦受到传统审计研究的影响。然而,这些路径对于揭露算法要害问题的解释力有限。正式算法审计者有较高的专业技术门槛要求。一旦算法系统在其他社会领域运用,原有的专业审计工作可能将不再适用。此外,很多有害的算法行为在人工设定的环境中难以被察觉。辨别一些有害算法行为需要日常生活使用环境和社会文化背景的共同辅助。

用户在与算法系统“遭遇”时会有所警觉,可以发现算法运行的偏见和有害行为。因此,文章提出“日常生活的算法审计”的概念,用以理解用户与算法系统的日常互动,他们如何检测、理解和质询有问题的机器行为。不同领域日常生活的算法审计可见表1。这些日常生活的算法审计是自下而上由用户驱动的。这一概念的范围与边界(或言维度)包括三点,分别是:算法审计的专业知识、集合性以及整个过程的有机性。专业知识因人而异,同时也是多面向的。区别于现有路径的“众包/合作式审计”(crowdsourced/collaborative audits),即一种经过精心组织和筹划的审计(比如将研究者、技术专家和政策制定者等组织在内),日常生活算法审计的集合性(collectiveness)更多是自发的且专业性不突出。而有机性则意味着日常生活算法审计围绕用户展开,尽管有时存在外部力量的介入和干预。

表1不同领域日常生活的算法审计(粗体为本文的案例研究)

领域

案例

描述

搜索

谷歌图片搜索

研究者发现在谷歌搜索“黑人女孩”出现了色情作品

点评/评价

Yelp广告偏见

小企业主发现因其不使用Yelp广告服务而不被推荐

Booking.com品质偏见

用户发现算法估算分数与其期望分数不匹配

图片裁剪

推特图片的裁剪(种族)

研究者发现合照中的黑人不被识别而遭遇裁剪

推特图片的裁剪(性别)

研究者发现合照中的女性不被识别而遭遇裁剪

图片描述

ImageNet轮赌盘

用户对图片进行了自主选择而非技术专家的预设

图片识别

谷歌相册

用户发现图片中黑人被识别为猩猩

谷歌在线广告的投放

研究者发现名字与逮捕记录有关尔后进行广告审计

推荐系统

优兔LGBTQ+去货币化

用户发现优兔对LGBTQ+内容进行了去货币化处理

谷歌地图

用户发现搜索“N”会被算法引向某黑人机构等

TikTok算法

用户发现“For You Page”屏蔽了LGBTQ+等内容

翻译

谷歌翻译的服务质量

用户发现在黎巴嫩等国波斯语和英语间有错误翻译

谷歌翻译的性别偏见

用户发现谷歌将中性语言的某些性别和职业相联系

信用卡

苹果信用卡

用户与妻子对比后发现其信用额度与其积分不对应

脸部识别

性别与肤色

研究者发现一些肤色和性别不被AI软件所识别

日常生活算法审计是一种对日常生活算法的“抵抗”,用户们持续地对算法的边界进行检测。在抵抗算法的危害并进行日常审计时,普通用户形成了一种“反向公共性”(counterpublics)的“平行话语场”(parallel discursive arenas),即受到算法侵害的团体会形成有共同意志的集合,一起验证并抵御算法偏见。

为了更好地理解日常生活算法审计的特征、动态和发展,以及支持日常生活算法审计更好地被应用于用户与算法系统的互动之中,文章进行了探索性的案例研究(如表1)。在此基础上,文章进行案例选择,其标准包括是否满足日常生活算法审计的三点标准、是否能提供足够的数据资源等。最终,选定了“推特图片裁剪算法”和“点评类平台算法”进行具体分析。

四个案例在“日常生活的算法审计”概念三维度上的体现可见表2。例如推特图片裁剪的例子,首先暴露了其种族歧视的问题,用户们发现了这一问题并自发而有机地聚集起来,通过发推和转发等形式进行算法审计调查。其次,在推特性别偏见的案例中,用户却几乎是个人行动的。至于点评类平台的算法,推荐排序对于商家的影响非常大,但是这一排序机制却时常缺乏透明度,例如Yelp会把小企业主的一些积极评价通过“过滤算法”隐藏起来,原因竟是这些企业主没有使用Yelp的广告服务。作为“反抗”,这些企业主会在平台论坛上讨论这一算法偏见并在随后付诸法律行动。最后是Booking.com的品质偏见,用户们对酒店的评价分数与算法估算给出的分数存在差异,然而相较于Yelp的广告偏见算法审计,Booking.com上的算法审计行动几乎都是个人化的。

表2四个案例在“日常生活的算法审计”概念三维度上的体现

(深色代表在某一维度体现出了较高水平,浅色代表较低水平)

案例

算法专业知识

集合性

有机性

推特种族偏见

许多用户有专业知识

用户集合讨论并测试

审计几乎完全自发

推特性别偏见

一些用户为有专业知识的计算机科学研究者

用户几乎都是个人行动

审计完全自发而有机

Yelp广告偏见

用户未具备专业知识

用户在平台论坛上讨论

审计几乎完全自发尽管诉讼是有组织的

Booking.com品质偏见

用户未具备专业知识

用户几乎都是个人行动而平台缺乏讨论机制

审计完全自发而有机

从历时和动态过程角度来审视日常生活算法,可归纳为以下几个部分:(1)发起审计;(2)有意识地关注算法系统的问题;(3)对算法行为进行假设,并在理想情景下测试算法系统;(4)调适算法,比如通过媒体宣传引起更多的关注、进行法律诉讼或是直接与平台方进行交涉。需要说明的是,这几部分并非完全线性进行。文章指出,普通用户有权力对算法弊病进行揭露;并且在其结成有共同意志的群体时,这种对算法进行反向审计的权力是最大的。

如何支持日常生活算法审计更好地被应用于用户与算法系统的互动之中,其可行的路径包括:形成更好的算法审计社区,特别是利用好存在于平台生态内部的讨论空间;与有专业知识的技术专家/算法开发者等形成合力;在“比较”的视野下,对比并依靠其他算法的协助完成审计工作;对审计工作进行“组织化”和分工;设计一些针对普通审计者和平台开发者的悬赏和奖励机制等。

日常生活的算法审计影响了普通用户的平台生活,为其“赋权”,形成一种反向公共性的行动尝试。然而,对于日常算法审计而言,其介入与干预是否适当且适时非常重要,即算法审计何时介入以及何时停止、介入的程度如何等问题亦需要在后续研究中进一步展开探讨。

原文请见:HongShen, Alicia DeVos, Motahhare Eslami, and Kenneth Holstein. 2021. EverydayAlgorithm Auditing: Understanding the Power of Everyday Users in SurfacingHarmful Algorithmic Behaviors. Proc. ACM Hum.- Comput. Interact.5, CSCW2, Article 433 (October 2021), 29 pages.https://doi.org/10.1145/3479577.