企业驾驭大数据 要从深度分析开始

近几年来已将更多的精力,放在云端运算、大数据方面的戴尔计算机(Dell),在与客户的接触过程中,也发现从云端运算到大数据的商机。戴尔公司企业解决方案市场开发经理陈毅达指出,现在的数据采集及创建的技术来源很多,平台也很多,而且数据之间的关系,更增加创建数据的速度,分享也变得更加容易,廉价的储存成本,更让数据保存的时间也相对拉长,成为驱动大数据成长的重要因素。

但前述的主客观环境因素,虽然让数据产生及分享变得非常容易,但目前的数据,却已经超越传统数据库或现有数据管理工具能够处里的范围。因为在爆炸性的数据增长过程中,结构性数据的成长相当缓慢,反观非结构性的数据,包括视讯、网页、智能型手机、消费数据、位置数据、财务服务数据,以及社会媒体数据等,陈毅达指出,至少有80%的数据,属于非结构化数据,大约500万亿个文文件,而且数据量每两年增加一倍。

dell

但目前的数据库解决方案,却主要是用来设计储存结构化数据,除了只能针对已知问题的回答速度进行优化外,架构本身往往就决定了内容形式,对于新数据型态与新问题,都有适应上的困难,加上扩展成本高昂,企业势必得寻求不同以往的数据处理解决方案,才能面对爆炸性的资料增长。

Hadoo大数据分析平台的最佳选择之一

陈毅达指出,想要驾驭大数据,企业必须要能针对特别庞大的资料进行分析,并拥有能处理密集数据的工作负载能力,并保证无限量的数据储存能力,才能快速反应与访问所有的信息,获取深入分析的结果。

因此,大数据解决方案的需求,必须要具备成本优势,来管理数据的数量、创建速度与种类,并能够处理与分析极大、复杂的资料,同时快速地进行,且能弹性的适应环境变化与新数据的类型,企业IT架构势必也要因应大数据,而有所变革。

陈毅达指出,最早碰到大数据问题的业者之一,就是Google,而根据Google在2006年发表的资料所建构而成的Hadoop数据储存与计算平台,就成为有意强化大分析的企业IT架构,最适合的选择之一。

Hadoop是一种分布式的数据处理架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop尤其擅长复杂的分析,可充分利用集群的威力,高速运算和储存,并有着高容错的特点。Hadoop更实现了一个分布式文件系统(Hadoop Distributed File Syste;HDFS),可以用来部署在低廉的硬件上,而且可提供高传输率,来访问应用程序的数据,适合有着超大数据集的应用程序使用。

由于Hadoop主要是适用于非结构化或半结构化数据,与适用于结构化数据、历史性事务数据的关系数据库,其实有相辅相成的效果,陈毅达认为,其实两者都是企业所需要的IT架构。

因为,在Hadoop的实务应用面,绝对不可能替代既有的数据仓储。陈毅达指出,Hadoop与数据仓储的应用特性并不同,所擅长处理的数据类型也不同,但企业IT架构若导入Hadoop,可以解决建置或更新数据仓储的内容时,对数据进行数据撷取、转换、加载的过程所产生的瓶颈。

目前已有许多社交网站如facebook、Linkedin、Twitter,都已经采用Hadoop,雅虎(Yahoo!)更是最大的Hadoop用户,其他的用户还包括Fox Media、The New York Times等媒体业者。

透过流动数据概念转变企业IT

但陈毅达指出,在Hadoop的方面,企业不是非常了解,就是完全不了解,非常的极端。目前在大数据应用,只有极少数企业已经决定往新的技术架构Hadoop发展,其他大多采取渐进策略,也就是先把系统架构转换成可扩充的架构,等大数据应用有确切方向后,再决定如何因应。

至于主要的应用方向,包括电信业希望藉由大数据分析,找出既有用户及潜在用户与社群影响力的关联;金融业则是希望能缩短数据处理时间,因为目前正在使用的数据仓储系统,在上线之后,会因为数据量快速成长,使得效能出现瓶颈,至于高科技制造业,主要着重的是制程良率分析。

陈毅达表示,戴尔计算机的大数据解决方法,是如何用最小的成本,获得硬件的储存空间,除了提高数据压缩比,降低数据的储存空间外,数据节点与节点之间的沟通也非常重要,低延迟、高带宽的网络设备更不可或缺。

除了硬件外,软件的安装及管理也非常重要。陈毅达指出,开始导入大数据分析的企业IT架构,通常在第一阶段还是会处于混乱无序,第二阶段才开始注重数据保存的工作,第三阶段则是开始进行数据优化,但这三个阶段其实都还是在管理硬件,其实是第四阶段的简单分析,最后才能进入第五阶段的复杂分析。

为了能让数据储存成本得到有效控制,陈毅达提出流动资料的概念,可以让IT人员从管理硬件,到真正管理硬件上的数据,包括让企业IT架构可以依照数据实际存取的频率,自动分层存放数据,持续适应快速改变的环境,让企业IT从死板的成本中心,转变为弹性化的生产力中心,也转变IT的工作从运营到创新。

移动信息化交流QQ群:一号群:211029692 二号群:344692795 CIO交流群:316076815(需认证)

移动化问答社区:wenda.yidonghua.com



1 星2 星3 星4 星5 星 (还没有打分,快来打分吧!)
Loading...
 
已有 0 条评论
返回顶部

无觅相关文章插件,快速提升流量