谢邦昌/民调已死?由美国总统大选看选举预测的误区
▲ 川普在括佛州在内的几个摇摆州都意外赢过希拉蕊,顺利入主白宫。(图/翻摄自川普网站)
2016年美国第58届总统选举落幕,结果算是出乎大家的意料,主流的民意以及媒体都不看好川普(Donald John Trump)会胜选,皆认为是希拉蕊(Hillary Diane Rodham Clinton)会成为美国的第一任女性总统,但最后并非如同美国多数民调机构所预测的是由希拉蕊当选,而是由川普入住白宫,担任了美国第45任的总统。
本次选举的预测,意外的可不只是美国媒体的民调机构,甚至连微软的人工智慧预测引擎Bing Predicts也预测失准差距超过一百张选举人票。因此开始有人用「民调已死」述说着民调不重要,未来民调将成为夕阳产业;也有人说大数据不可靠,今年六月时英国的脱欧公投也有先例,选前网路上一片留欧的声音对照着选后脱欧的结果,来诉说着大数据不可信这样的结论。无论是民调还是大数据都有误差,因此「民调已死」或是「大数据大忽悠」等等这些声音看似都有它的道理,但事实情况真的是这样吗?
翻开美国总统选举史上,民调结果和实际选举相去甚远的情况其实并非只有今年这一次。著名的失败案例早在1936年和1948年时就已经发生过这样的情况,之后从1948年一直到2012年之间的美国总统大选基本上民调都是可以正确地预测出实际的投票结果。1936年和1948年这两届美国大选民调的失败经验,更成了统计学中抽样调查方法的经典案例。
1936年美国的文学文摘(Literary Digest)杂志所办的全国性调查,该杂志社利用订户名册作为抽样底册,而寄出一千万份的邮寄问卷,最后回收大约两百四十万份,用来预测当年的美国总统大选。调查结果认为共和党的蓝登(Alfred M. Landon)可以高票当选,事实上却是民主党的罗斯福(Franklin Delano Roosevelt)获胜。
但是同年盖洛普(Gallup)民调公司却仅以以五万份问卷,成功地预测了当年度大选的结果。为什么会有这样的差别呢?时间拉到1948年,这年的美国大选是由共和党的杜威(Thomas Edmund Dewey),与寻求连任的民主党杜鲁门(Harry S. Truman)竞选。在当时三家主要的民调公司盖洛普、克罗斯科(Crossley)以及罗波(Roper),在投票前均宣布杜威至少会胜出5个百分点。但是大选的结果出来了,杜鲁门以接近50%的得票率击败杜威略多于45%的得票率,反倒是杜鲁门胜出了5个百分点左右,与选前预测的结果大相迳庭,中间到底发生了什么事呢?统计真的没有用吗?进入了大数据时代的2016年所发生的预测失准,与超过一甲子以前的两次经验,从统计的角度来看,有何异同之处呢?
▲杜鲁门拿着芝加哥论坛报的头版新闻,哈哈大笑。(图/翻摄自吕秋远脸书)
1936年文学文摘寄发了一千万份的问卷,并回收了大约两百四十万份,在当时可是不折不扣的「大数据」,统计的理论告诉我们说样本数越多越好,但是为什么结果会是样本数仅有大约文学文摘百分之二的盖洛普公司能成功预测呢?原因在于受访样本的不同。
文学文摘寄发的一千万份问卷的依据是该杂志社的订户、电话簿,及一些俱乐部的会员,基本上在当时这些人都是属于经济状况较好的族群,在此抽样上已经产生了相当的偏误;另外收回的两百四十万份问卷皆属于「自愿回复」,在这边有两个问题需要思考,第一,「自愿回复」是否意味着愿意回复的这些样本,是否存在着特别的意识形态,因此认为自己需要积极参与民调来发声呢?第二,这份调查所发出的问卷共一千万份,有效样本数算两百四十万,这意味着这份调查有着高达七成六的遗漏值,在进行资料分析时,若遗漏值的比例如此的高,做出来的推论会是有效推论吗?
综合以上,在偏误中还有偏误的时候,也难怪文学文摘的「大数据」会失准了。一个方法的失败不代表另外一个方法就会成功,那么为何同年盖洛普公司就会成功呢?当时盖洛普公司所使用抽样方法则是大不相同,该公司所使用的方法是「配额抽样」也就是每位面访员被给定一定数量的受访者,其中如住所、性别、年龄、教育程度、种族、兵役状态、是否属于工会等,各类都有一定配额,与文学文摘所使用的方法相比,配额抽样已经有将样本选择的偏误控制住了,预测的品质自然会比较好。
基于1936年的成功经验,在1948年的三家民调公司也都使用配额抽样的方式进行面访调查,但是这次的预测结果与1936年相比天差地远,原因何在呢?根据专家学者们的探讨后发现了两个年度的社会背景有着相当的差异,前面有提到所谓的配额就是每位面访员依照各类的配额对受访者进行调查,但是受访者的选择则是由面访员自己决定符合各类条件的受访者做面访即可。
在1948年的大选中,其实杜鲁门并不被看好一定可以连任,那时的背景是第二次世界大战才刚结束,冷战(Cold War)才刚开始的时期,美国国内的气氛令人感到不安,在当时杜威的声势是有机会挑战杜鲁门的情形之下,样本选择是否有代表性便成为了能够预测正确与否的关键,而民调公司的访员由于是自行决定符合条件的受访者,不能排除说因为选样偏误的关系造成了这次的预测失准。
但是1936年当时的候选人罗斯福与对手兰登的声势差异相当大,即便抽样设计存在着这样子的偏误,也不至于会与选举的结果有异。因此经过1948年的失败经验之后,各家的民调公司在抽样的方法上进行了修正,从原先的方便抽样改为随机抽样的设计来减少因为人为选样的偏误。值得注意的是,1952年起盖洛普公司仅使用3000~8000左右的样本数就使得民调准确度显著的提升,这说明机率抽样,配上良好的调查设计,是可以在民调中,达到很精准的效果。(黄文璋,2010)
那么在现今2016年,民意调查又面对了什么样的问题和挑战呢?在美国,民调公司大约在1988年的时候因为成本效率以及社会民风上的考量开始渐渐的减少了面访调查,取而代之的则是电话调查,在这些年美国全国性的民调几乎是靠电话调查来进行的。但是为什么不到20年的光景,电话调查的误差越来越大呢?
要知道当时电话调查可以取代面访调查最主要的原因是在于家用电话越来越普及,普及率在2000年时达到最高点,有超过九成以上的家庭拥有家用电话,也因此透过适当的问卷设计来辅以电话调查是可以得到相当不错的效果。但是在2013年的调查显示有高达四成的家庭已经没有申装家用电话,透过传统电话调查仅有机会调查到家户中有安装家用电话的六成民众,也因如此就又产生了选样偏误。
如同1988年时开始调查方式的变革,当人们的生活型态改变时调查方式也必需得随之改变,而在资讯爆炸的大数据时代,网路势力崛起的「指尖力量」―社群媒体,这是传统民意调查无法察觉到的一块新科技处女地。每天光是流向社群网站Facebook与Twitter的资料量,就超过3亿张照片、25亿则发文、27亿按赞数。
大数据海啸扑啸而来,这些数据散布在各个地方,每天以惊人速度成长,虽然数据杂乱,但好处是完整详细,可以透过系统性的方式将资料梳理整齐进行预测。若大数据真这么神,为何以大数据为基础来进行预测的微软人工智慧Bing Predicts会成为一场笑话呢?
网路的特性使得人工智慧系统利用机器学习的确还是有许多的难关要克服,最明显的例子就是反讽用语的分辨,现阶段机器还是很容易错误解读网民的意思,但若仅轻易的以微软的例子来断定大数据无用,那这结论就下得太早了,因为并非所有的人工智慧预测皆失准,由Genic.ai所开发的MogIA人工智慧系统成功的预测出川普将入主白宫。
同样是人工智慧、同样是大数据,为何Bing Predicts和MogIA的结果会相差这么多呢?Bing Predicts所使用的资料来源是基于微软自己本身Bing浏览器的的搜寻资讯以及相关的社交媒体趋势;而MogIA的预测方法是直接从Google、YouTube和Twitter等网站上搜集了近2000万的资料点,来进行分析预测,说实话MogIA的这套预测方法是对于川普比较有利的,原因在于它并不会考虑用户的语气和意图,而是单纯的检查热度。
另外,本次选举同时反应了另一项不能忽视的议题:谁在网路上发表言论。虽然网路使用相当的普遍,但是尚有一部分的民众也许受限使用习惯,也许受限生活型态,或是经济因素,并不时经常使用或者仅是浏览未表示意见,网路言论无法掌握这些民众的意向,比照过去沉默大众,这群人隐藏的更深。由这次当选人川普的支持群众结构,不难发现这群被媒体网路所忽略声音的人。
由上述的比较可以知道即使是大数据,肯定的存在着误差,而误差的来源就是因为所搜集选用的资料以及分析方法不同而产生的。也就是说,大数据时代的分析将会比起过去更加的复杂,因为不仅资料复杂,连分析方法也多出许多;而与过去失败经验中学习到雷同的部分在于「所选用的样本是否具有代表性」,多数企业对于大数据总有「样本等于母体」这样的迷思,但是就算样本数再多再大,只要资料来源单一,还是会有相当局限性,也许Bing Predicts就是这样的一个例子。
▲美国总统大选川杜大战的传统民调不准,反倒是网路粉丝数透出端倪。(图/东森新闻)
做个结论,虽然本篇文章通篇是在说明关于美国大选的例子,但是就民意调查的思维逻辑,是放诸四海皆准的。在现在这样一个资讯爆炸的时代,我们可以选择的方法有很多种,无论是传统面访、电话访问、大数据分析,每种方法都有其专属的优劣之处,重要的是如何依照情势来设计适当使得要推论母体能被涵盖调查到的调查方法。
民调的推论是需要与传播学、社会学、心理学的专业来结合的,例如上述领域中著名的沉默螺旋理论,所谓的沉默螺旋理论是指如果人们觉得自己的观点是公众中的少数派,他们将不愿意传播自己的看法;而如果他们觉得自己的看法与多数人一致,他们会勇敢的说出来。
媒体通常会关注多数派的观点,轻视少数派的观点。于是少数派的声音越来越小,多数派的声音越来越大,形成一种螺旋式上升的模式。以英国脱欧和这次美国大选为例,留欧与希拉蕊当选是主流的声音,而支持脱欧和川普当选的选民则成了沉默的声音。最后民调失准之处很可能是在于沉默的声音没有被推论出来。这也带给我们一项重要的启发在于统计分析与调查推论若是没有适时的与其他专业结合的话,调查分析的结果将无法有意义的被推论。
►美国总统大选专题
►美国大选文字直播
►►►随时加入观点与讨论,给88论坛粉丝团按个赞!
●作者:谢邦昌,台北医学大学管理学院院长,以上言论不代表本报立场。88论坛欢迎更多参与,投稿请寄editor88@ettoday.net