Facebook用数十亿张Instagram上传的照片来训练AI

记者洪圣壹台北报导

相较于 Facebook 来说,Instagram分享图片、影音更为简便,而且使用环境更为单纯,这使得人们愿意在该平台分享图片,而在 F8 开发者大会的第二天,Facebook 谈到有关图像辨识技术时,说明他们使用人们在Instagram分享的数十亿张照片训练图像辨识模组

其实这些数据训练的模型对于所有科技公司来说都非常普遍,而Facebook面临的挑战除了隐私,更多的是如何整理这数十亿图片的相关内容,好比说在 35 亿张Instagram照片当中分类超过17,000个标签

在 F8 第二天的会议当中,Facebook 向开发者们说明了他们是如何处理了数十亿张 Instagram 照片。首先,这些照片被用户标注了标签,接着 Facebook 要能够辨识哪些主题标签是同义词,同时还要学习将更具体的主题标签优先于更一般的主题标签,最终这些主题标签将被训练成大规模的标签预测模组,接着再使用这些模组来训练他们自己的图像辨识模组。

Facebook 表示,他们每天依靠数百台全天候运行的GPU来解析这些数据,目前已经获得的成果已经超过业界在图像辨识的标准,其中最好的成果在 ImageNet 上已经达到了 85.4% 的准确度,这个数据甚至比起 2017 年 Google、微软公司公开的相关数据还要好上 1% ~2%。

谈到关键的隐私问题,Facebook 表示,这些图像的用途在于辨识跟标签之间的关联性,而标签是来自公开、可用的主题标签,对他们来说,这是一种用数十亿图像积累和培训软体形式,如果照片本身没有标签,即使机器再厉害,也无法辨识。简单的说,Facebook 认为他们只在这些公开的标签当中提取基于图像的相关数据,并不一定要从照片内容中推断用户行为。

无可厚非的,这些都代表着一件事,当人们使用 Instagram 分享照片时,不管你愿不愿意,你每天在 IG 上传的照片都正在为 Facebook 的深度学习技术做出贡献

但从另外一个角度来说,也是因为有这些贡献也才能解决人们需求,好比说我们每次上传一张照片,Facebook的脸部识别系统就可以自动为照片添加标签,甚至告诉你是哪个人,并透过手机位置的辨识,告诉你这张照片可能是在哪里拍的,甚至这种图像辨识功能,还可以帮助人们快速搜寻资料

Facebook技术长Mike Schroepfer表示,目前 Facebook 大部分的辨识与管理工作都是由AI处理,这包括筛选和清理恐怖主义宣传裸体暴力仇恨对立言论垃圾讯息人物、内容与平台。他更强调,Facebook 还需要更多新的突破、新技术来解决所有人想解决的问题。