全国意向/大数据时代:市场调查业的革新

文/谢邦昌、谢邦彦抽样数据与大数据

以往进行民意调查,大多是透过电话抽样,样本数会做到抽样误差在正负3% 以内,在网路媒体与指尖行为还没出现时,这种以统计抽样为核心的民意调查方式对于选情预测,有着相当不错的准确度,如1996年总统大选、1998年台北市长选举等。随着网路资讯发达及行动通讯的重度使用发展趋势,民众网路上留下了大量的数据,让以往的抽样调查,已经无法涵盖现代人的生活形态。

在过去的十年间,数据爆炸已经成为人所共知的一个话题,根据市场研究公司IDC去年发布的数据,预估2009年到2020年期间,数字资讯总量将增长44倍。加上视频、图片、音频等等非结构化丰富的媒体数据的应用越来越频繁,社交网路的不断增长和壮大;目前,每天光是流向社群网站Facebook与Twitter的资料量,就多达3亿张照片、25亿则发文、27亿按赞数。大数据海啸扑啸而来,这些数据散布在各个地方,每天光速成长,数据既多,也杂乱,但好处是完整详细。因此,这些都是「资讯完整的宝库」

而大数据(Big Data)时代和一般资料库分析有什么不一样的地方?就是除了有跟山一样高的繁多资料外,还有许多对于非结构化资料的搜集与分析。网路媒体有别于传统媒体,每个使用者都可以制造、生产讯息,网路上的讯息量比美国国会图书馆还多了N^N倍,这些资料都不是整理好的资料,甚至大多不是数值资料,为了搜集并且分析这些资料,文字探勘(Text Mining)成了近几年的主流,分析出来的结果比抽样更准确、更有价值

因此,在现今汪洋数据的时代中,除了能利用量化的资料去分析外,质化的资料中更含有大量的资讯,如何利用「多维度的数据」帮客户创造价值,正是文字探勘(Text Mining)的价值。将文字和数字一起分析帮客户找出致胜密码,并利用大数据和抽样数据,让产生的资料更有价值,精准的了解预测民意。

▲利用多维度的数据创造价值。

文字探勘的致胜密码

文字探勘(Text Mining) 是一种跨领域的应用,结合资料探勘技术与自然语言处理、资讯检索技术,使大量的文字资讯能经由电脑分析归纳,主要的应用有自动分类、自动摘要、文件检索、知识管理等。用以因应今日因网际网路(Internet) 兴起,而造成的庞大的数据洋流。

文字采矿之核心技术,大多来自于资料采矿技术,将借助案例分析与文件资料之相互查询与交叉比对,产生经验与文件报告之交互参考对应。

近年来由于网路的发展,电子文件呈现等比级数的成长,每天均有庞大文件资料被制造生产出来,这些各式各样的文件,包括消费、广告等一般资讯或者是社会、经济、政治等即时新闻,都蕴藏着大量资讯,一旦文件暴增到数以百计或数以千计时,文件与文件之间毫无关联,庞大的文件成为一堆资料山,要在短时间内阅读或是查询某一主题资讯,将很困难,因而丧失及时资讯或机会(黄燕萍,1999)。

文字知识发掘(Knowledge Discovery from Text ,KDT)亦可称为文字探勘(Text Mining )或是文件资讯探勘(Document Information Mining )其应用了资讯检索、资讯萃取、计算语言学、自然语言处理、资料探勘技术…等,文字探勘特别着重于利用这些技术,自非结构或半结构的文字中发掘出先前未知,隐含而有用的资讯,Dan Sullivan (2001)定义文字探勘为「一种编辑、组织及分析大量文件的过程,为了提供特定使用者特定的资讯,以及发现某些特征及其间的关联」。相较于传统的资料探勘,文字探勘需要加上额外的资料选择处理程序,以及复杂的特征萃取步骤。

文字探勘整合了许多传统资讯检索技术,包括了关键字萃取、全文检索、文件自动分类、自动摘要等等,以提供文字处理更强大的功能。

随着电脑设备及网路技术的蓬勃发展和快速普及,许多传统的资讯作业方式因此而改变,大量原本是以书面方式存在的文件资讯,被转换成电子档的形式来储存及传递,而这些文件中极可能隐藏着许多有用的宝贵知识。但是,当资讯的产生和传递效率加速提升时,也隐含了资讯爆炸的现象,然而,传统资讯检索方式无法有效地帮助使用者分析和了解大量的文件资料,许多试图从文件中获取知识的研究便因此而产生。

点字成金稳操胜券

以下为利用文字探勘(Text Mining)点字成金之案例,包含:商品要卖得好、社群操作的好、危机预警等。

1. 商品卖得好

想要商品卖得好,不外乎了解消费者想要的(want)。可以利用社群网站的资料词云分析,也可以利用调研,或是资料库的分析等,如利用社群词云,分析PTT的讨论区,可以看出网民透过”淘宝”网购,购买特殊品牌的包包及洋装,这些资讯就可以做为通路产品采购策略的参考,推出大家都想要的商品,商品自然卖得好。

2. 社群操作得好

我们也可以从社群网站中挖掘出许多资料,如:利用粉丝的发文找出主题推论分析。如一个美妆FB粉丝团,我们可以看出它是以「吸引男友」、「创造自己在姊妹淘中的优越感」为诉求主轴,创造粉丝的需求,提升商品销量。

▲操作主题分析。

3. 危机预警

观察粉丝团的po文动态,即时发现民众对某便利超商工读生在气爆事件发生后的态度。。我们可以从特定的字词中,找出与之相关联的字词,并从这些字词里找出价值性,如:与「爱理不理」相关联的字词,有「十万火急」、「工读生」、「不好意思」和「洗手间」,再从po文中还原出在高雄气爆发生时,工读生面对灾民想要借用洗手间,碍于公司规定,只能一再的说不好意思,民众感受到的是一种爱理不理的处理方式。面对突发事件便利超商工读生的处理态度,影响到品牌形象,品牌人员需要有警觉性

参考文献

中文文献1.黄燕萍(1999)。中文社会新闻文件资讯撷取。国立云林科技大学资讯管理所硕士论文。2.蔡宜芬蒋以仁徐珮岚范碧琴(2004)。医学教育上的生医结构式与非结构式资料之知识建构与管理系统。台北医学大学医学资讯研究所、台湾大学医学工程学研究所。3.谢邦昌(2014)。SQL Server资料采矿与商业智慧-适用SQL Server 2014/2012。碁峰出版社。4.赵仲孟侯迪译预测性文本挖掘基础。西安交通大学出版社。5.国家教育研究院。文本探勘释义。国家教育研究院。

英文文献1.Dan Sullivan (2001). Document Warehousing and Text Mining. IBM Almaden Research Center.2.Joachims (1997). A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. ICML 1997 Proceedings of the Fourteenth International Conference on Machine Learning, 143-151.3.Sebastiani (2002). Machine Learning in Automated Text Categorization. Consiglio Nazionale delle Ricerche, Italy.4.Agrawal, Imielinski & Swami (1993). Mining Association Rules between Sets of Items in Large Databases. IBM Almaden Research Center.5.Buntine (1993). Graphical Models for Discovering Knowledge. Advances in knowledge discovery and data mining, Pages 59-82.6.Nomoto (2002). MSW Signal-to-Noise Enhancers for Noise Reduction in DBS Reception.7.Bernhard, G., & Rudolf, W. (1999). Formal Concept Analysis: Mathematical Foundations8.Aha, D. W. (1997). Lazy learning (pp. 7-10). Kluwer academic publishers.9.Buntine, W. (1993). Learning classification trees (pp. 182-201). Springer US.10.Heckerman, D., Geiger, D., & Chickering, D. M. (1995). Learning Bayesian

networks: The combination of knowledge and statistical data. Machine learning, 20(3), 197-243.11.E. Adams. “A Study of Trigrams and Their Feasibility as Index Terms in a Full Text Information Retrieval System.” PhD thesis, George Washington University, USA, 1991.12.Mobasher, B., Cooley, R., & Srivastava, J. (2000). Automatic personalization based on Web usage mining. Communications of the ACM, 43(8), 142-151.13.Aggarwal, C. C., Gates, S. C., & Yu, P. S.L. (2002). U.S. Patent No. 6,360,227. Washington, DC: U.S. Patent and Trademark Office.14.Michael Cox & David Ellsworth (1997). Application-Controlled Demand Paging for Out-of-Core Visualization. NASA Ames Research Center15.Luís Torgo.(2003). Data Mining with R:learning by case studies. Chapman & Hall/CRC Data Mining and Knowledge Discovery Series.

● 作者谢邦昌,辅仁大学商学研究所所长,全国意向顾问股份有限公司顾问。本文言论不代表本报立场。论坛欢迎更多声音与讨论,文章请寄editor@ettoday.net

● 本文已发表于商业服务业资讯网http://ciis.cdri.org.tw/index.aspx