网路资讯/六个关于巨量资料不能说的秘密
作/麦克
《2013年巨量资料大调查》显示出,当前并不缺乏可以深入争论的事实、数字及工具。既然如此,我们又怎能以仅9%比例的上述依恃,便说明巨量资料将会对使用者造成极大的影响。
当只有31%的商业使用者存取资讯,以及只有20%的公司想要扩大其专属分析团队时,我们又该如何期望能有所改善呢?
揭露巨量资料没说出口的真相
《资讯周刊》2013年巨量资料大调查显示出一些好消息,亦即当前大部分的厂商在打造必要基础设施,以及因应不同角色需求的工具提供上,都有不错的表现。然而, 当被问及资料搜集与实际使用率时,巨量资料之轮竟然随即爆胎脱落了。
主要的鸿沟是在资料分析上,甚至是最常见并一直使用多年的资讯分析亦然;在此所指的是,平日常见的交易资料、系统日志、电子邮件、客户关系管理(CRM),甚至网站分析等资讯的分析。
但糟透的是,只有不到10%的调查对象表示,提出全新资料观点之构想,主要是由企业组织内部协同团队或跨部门小组来主导的。
在此先花个时间来看看这次问卷调查对象的基本资料。其中有接近半数的调查对象所管理的资料总量达到500TB,甚至更多容量,而有13%则更超过10PB(见图1)。
所有企业的员工数至少都在50人以上,57%的填卷者皆属执行长、资讯长等C级(C-level)或副总级管理阶层或总监、经理级职位者。其中5成营收皆在1亿美金以上,而有28%的比例,其营收达到10亿美金以上。透过IT能清楚地知道有问题存在,但却只有9%的问卷对象,认为他们公司拥有非常有效益的使用者资料。
然而,只有4%的调查对象勇于承认,他们并不擅于善用自家的资料。事实上,许多笔者所接触的IT 组织,多半对业务的充份授权自我感觉良好。所以在使用者采买更多储存、升级资料仓储平台,抑或加速巨量Hadoop实例之前,让我们一同来个揭开真相的检查吧!
以下列举了CIO们自己提到的6大谎言,其中有多少是你听过的呢?
谎言一:真正明白当前拥有多少资料
第一个对于本次调查的一大打击就是,将近45%的调查对象表示, 其可纳入管理范畴的资料总量为500TB以上。这是真的吗?
有鉴于本次调查对象资料池(Data Pool)中的最小分界点是50名员工,同时其中75%的调查对象拥有500名以上的员工,以此逻辑来看,他们的资料正在不断遗失中。规模500人、营收2.5亿美元的公司组织,通常每年有可能累积多达165TB以上可供分析之用的有效资料,这是最基本的数量(见表1)。资料管理并不仅止于所储存的资料, 而应该包括所研究的资料在内才对。
了解现有资料池的数量大小与组成结构非常重要。这不仅仅有助于了解当下最需要的基本工作与要素为何,例如,储存或归档同时也有助于厘清出能搞懂一切所必需的工具及人力。
绝大部分的调查对象都将伺服器与磁碟阵列列为储存管理上的首要考量,但只有30%会考量云端资料,同时只有11%的调查对象特别着重在供应链资讯的管理上。假如不将重大资料集(Data see)纳入计划中的一部分的话,那么将会为进行中的分析埋下最终失败的伏笔。
在进行方案商绩效评量时,怎能没有资料传输效能、准确率及成本差异等重大细节作为依据呢?同样的,在进行客户行为研究时,若没有Web线上或云端CRM的详细资料做分析基础,又怎能获得确实的真相?