大数据不再是空谈议题

Big Data,大概是爆红速度仅次于云端运算的科技新名词,过去一年来,云端运算虽然还是很热门的话题,但更热门的是Big Data,情况就像几年前厂商不约而同在谈云端运算一样。当初整个业界大谈云端运算,从上到下几乎所有公司都能沾得上边,不免令人质疑是在炒作议题,但事实证明云端运算至今不只没有成为泡沫,还有许多更进一步的成果。然而,遇到现今整个IT业界都在追逐Big Data议题,在相同的情境下还是不免要质疑:这是不是也在炒作?

其中最直接的质疑是:Big Data所指的大数据分析,已经不是什么新鲜事了,大量资料的处理与分析应用早就存在,许多企业采用数据仓储就是为了解决大量数据处理与分析的难题。这种情况就如同当初云端运算被扩大解释为网页电子信箱,搞得大家一头雾水,不免觉得原来云端运算早就存在,不过是旧瓶装新酒罢了。但从云端运算现在的发展状况来看,这当然是个误解。

big data

Big Data的误解,其实从中文翻译就已经造成了。Big Data真是一个不好翻译的名词,很难从中文找到一个适切的译名,任何一种翻译方法,都只能表达部分意思,因此势必就会造成另外一部分的误解。

Big Data有3种特性:Volume、Velocity、Variety,Volume指的是数据量庞大,而到底数据量要多大才算呢?这其实没有一定的界限,不过有许多企业已经面临单日数据量以数十、数百TB的速度增加,而总数据量也达到了PB(Petabyte)等级,这样的数据量已让传统的数据库难以处理;Velocity是指数据增加的速度越来越快,诸如移动运算、社交网络的风行,使得数据增加的速度比传统的企业应用程序来得快很多,一旦数据增生速度越快,数据处理、分析的速度也就得跟上;而Variety则是指数据的多样性,我们现在上网不是只看看信息,同时我们不断在产出数据:贴照片、贴影片、这里按赞、那里写个几句,另一方面,IT深入生活中的各个层面,各式各样的监控器、传感器也不停地产出机器信息,数据的型式已不像过去那么单纯了。

这3个数据特性,已经是现在式,而不是未来式。然而该如何解决日渐紧迫的大数据处理问题呢?像Facebook、Twitter这样面临数据量大爆炸的网络公司,开始用Hadoop、NoSQL等新兴技术来解决问题。

Hadoop是分布式处理技术,它立基于丛集架构,因此可以使用大量便宜的服务器,打造巨大的处理能力,并且可由水平扩充方式来加大处理能力,以应付更大的数据处理需求。

有了Hadoop这样的开放原始码技术,让许多人不需购买大型的资料分析设备,也有办法来分析大量的数据,例如日本药厂透过分析Twitter使用者的留言,分析感冒、流鼻水等症状的字眼,就能了解流行病的趋势,掌握市场脉动;而在过去,如果你没有可行的大数据分析工具,可能连想都不敢想要分析Twitter这么一回事。

至于传统数据分析厂商,也纷纷将资料分析平台转换为分布式处理架构,提供水平扩充能力,或是增加处理速度更快的数据库技术,来应付Big Data的3种特性。这样的发展也有助于企业因应未来的数据处理挑战,对于已经采用数据仓储的用户,例如银行业,就能顺利移转。毕竟,Hadoop仍是一个很新的技术,其中的技术门坎亦较高。

所以,Big Data不会是一个空谈的议题,在技术上已经有诸多变革在发生了。不过,Big Data的挑战不完全是技术层面的议题,更大的挑战是在业务层面,甚至是管理面的问题,

移动信息化交流QQ群:一号群:211029692 二号群:344692795 CIO交流群:316076815(需认证)

移动化问答社区:wenda.yidonghua.com



1 星2 星3 星4 星5 星 (还没有打分,快来打分吧!)
Loading...
 
已有 1 条评论
  1. 非常看好

    2013年1月26日 09:01来自新浪微博 回复
返回顶部

无觅相关文章插件,快速提升流量