网路资讯/巨量资料浪潮来袭 是商机或「丧机」?

作/道格

企业是否正迈向巨量资料浪潮颠峰?或者正朝着幻觉破灭的谷底迈进?

公司是否找到了巨量资料(Big Data)分析运用案例?是否尝试过像Hadoop之类的新平台?如果已经做过这些事,或许意味着已经知道希望从巨量资料中得到些什么、以及有哪些问题需要解决。

知道自己的需求,代表有机会找出有用的商业资讯,而不只是储存一大堆无用的资讯。

这里所探讨的技术,包括分散式运算(Distributed computing)、串流处理(Stream processing)、机器学习(Machine learning)、图像分析(Graph analysis)等,可以增加分析的效能,让分析更便宜、更容易使用。

使用分散式运算与串流处理,公司可以从事过去做不到的大规模、快速分析。例如,银行可以在1秒以内判断一位客户的资料,然后在网站上提供与他个人最相关的广告

另外也看到机器学习在复杂分析中发挥作用;例如,Memorial Sloan-Kettering癌症中心正在从事机器学习,以持续监控新的医学文献,并借此提供癌症医疗建议,协助医师诊断。

而且现在正目睹开放原始码科技的出现,包括Apache Hadoop和R语言,让公司可以使用更大、更广的资料类型,并且用这些东西来解决新的商业分析问题。

举例来说,共同基金公司American Century正在开发自己的R-based模型,使用图像分析技术来找出公司之间的关连,就好比脸书(Facebook)可以找出人与人之间的关系一样;这么一来,American Century便可以强化自己的财报预测准度

在这个阶段,IT人员对于未来分析市场的愿望清单还有一长串。大部分公司仍希望看到经过验证的分析工具方法,而不是还在测试阶段计划

他们想要简单、容易上手的SQL或SQL类型分析,不受到限制的查询能力、批次处理以及非即时处理。资料量不断成长,而公司想要合理运用的资料来源种类也不断增加。

在此同时,新创立的分析公司不断提到Hadoop等巨量资料平台的问题,所以接下来的篇幅将会聚焦在现阶段最新、最完整的资料使用方式

开放原始码可以解决难题

Apache Hadoop现在几乎已经是巨量资料的同义词,这种分散式资料处理架构可以用来打造大量分散式运算应用。Hadoop让组织可以快速储存大量不同的资料,无须关连式资料库要求的所有管理工作

不过,要在Hadoop上跑分析,目前仍需要更好的实例与技术,因此有待继续努力。

以目前现有科技,公司可以在MapReduce中设计演算法,使用Hadoop的HBase NoSQL资料库来撷取资料组,并利用Hive数据资料库进行类似SQL的查询。

但早期使用者发现了一些缺失,MapReduce程式很复杂,HBase不稳且不易管理,而Hive不但慢,且进行SQL分析的能力十分有限。

在Hadoop社群中,有越来越多参与者和新创公司正积极改善像是Hive这样的工具,包括进行MapReduce设计的Apache Pig语言、以及部署机器学习演算法的Apache Mahout计划。

这些新创公司发现Hadoop使用者很想要开发新的方法。

举例来说,Opower卖的是可以让电力公司追踪其客户电力使用状况的系统。Opower使用Hadoop,结合数百万电力客户的资料、恒温装置、天气与其它数据。

其中一份报告可以让客户知道自己的电力使用状况,并且与当地相同规模的住家平均做比较。客户还可以从网路上取得帐单金额预估,并获得下一期的缴费提醒。

拥有这些资讯的消费者,就可以控制自己的用电量诸如关掉家里的恒温装置、改成经过设计的恒温计,或调整成在用电离峰时间才使用。在2007年成立的Opower表示,使用其服务的1,500万名客户中,总共减少了2兆瓦电力,省下约2.2亿美元。

不过这项服务的资料处理可不容易。就像许多Hadoop使用者一样,Opower在Java上开发了客制化的MapReduce流程,可以从HBase撷取、处理数据,然后应用到分析模型中。

为了简化流程,Opower使用WibiData开发的现成软体来完成HBase分析工作。现任Opower基础建设工程总监Drew Hylbert曾在雅虎(Yahoo)任职,他离开雅虎后开始投资MapReduce资料处理;他表示,这个软体可以简化2个步骤

他说:「WibiData有助于完成资料更正,而资料更正是我们希望用自己的HBase架构完成的事;而且WibiData可以让未来需要时能在HBase上增加资料。」

WibiData是支援Hadoop的众多新创公司之一,由Cloudera创办人Christophe Bisciglia创立。

WibiData提供Kiji函式库给HBase架构发展,让WibiData可以提供免费的开放原始码软体。这些函式库让大型HBase资料库的资料储存与撷取变得更容易。

该公司还提供开放原始码的分析工具,也就是在HBase上运作的MapReduce模型与工具,并从顾问、企业支援与训练获得利润。

Hylbert表示:「WibiData的想法是可以省略亲自开发MapReduce的过程;与其寻找研究工程师与MapReduce工程师来完成开发,不如利用可重复的抽象化过程在多个应用中产生洞察(insight)。」

客户可以重复使用软体,不用每次有新的insight需求时就要开发新的MapReduce工作。

Opower还仰赖另一家新创公司Platfora来协助公司完成巨量资料视觉化工作,这又是另一个分析的分支。

Hylbert解释,WibiData找来工程师研究第一手资料、并建立统计模型,不过其他Opower员工需要「看到数据、画出图表,然后用不同方式加以诠释解读;Platfora则在Hadoop与HBase上提供我们资料视觉化,并深入探索资讯。」

Opower正要开始部署Platfora;但如果发挥到极致,将可以取代SQL基础的方法,让Opower不必从Hadoop撷取资讯、再把资讯移到Infobright资料库软体、然后使用Pentaho资料图像化工具完成分析。

Hylbert表示,Infobright与Pentaho软体的结合固然「简单好用」,但他宁可省去把资料从Hadoop移到SQL资料库的过程。Platfora可以省略这个步骤,因为Platfora是直接在Hadoop上运作。