大数据时代给现行运算技术提出挑战

关于数据处理,我们总认为CPU执行速度不是关键,但有些提供云端、网站与移动服务的业者不这么想,他们正面临所需处理数据快速暴增的窘境,受制于CPU速度不够而求助于GPU运算在特定的科学研究领域里面,以GPU协同CPU来强化整体运算能力的应用,越来越常见,然而,过去在商业领域中罕见实际导入使用的例子。

不过,今年的情势很不同,Nvidia在GTC 2013大会上,正式宣布了几家商用实例,他们是云端服务业者和开发移动应用的公司,已经将GPU用在大数据(Big Data)的分析与进阶搜寻,而且他们的服务可同时涵盖到消费端与商业应用。

 

挑战实时分析大量推特贴文,CRM业者用PC等级GPU吞下所有数据处理

首先登场的,是以提供CRM软件即服务(SaaS)而闻名的云端服务供货商Salesforce,他们之所以用GPU,是因为旗下的Marketing Cloud服务替客户提供了Social listening的功能,也就是社交网站监控与分析。而使用该服务的用户,目前有Cisco、Dell、Gatorade(开特力)、美国红十字会等。

Salesforce.com在此面临的挑战之一,主要是需处理每天来自Twitter网站上的使用者新增的5亿篇贴文(tweets),这些贴文中包含了不同性质的数据,同时,每天的新贴文数还在不断成长中,而且速度越来越快。

除此之外,Salesforce在本身的主题档案库中,也定义了160万笔以上的搜寻表示式(每一笔包含12个关键词),这里的数据也是随着用户数成长而持续增加中。

原本Salesforce所用的方法,是在一般的x86 CPU架构下,利用Apache Lucene这套Java链接库,来获得关键词索引与搜寻的布尔运算机制,以及用Twitter worker程序,针对一大批推文来建立索引,并且用它来查询所有的表示式,但这么做,数据吞吐量低(需同时执行80个多线程的Twitter worker程序,并且要赶上Twitter实时发布公开推文的串流服务Firehorse速度),并且会产生很高的延迟(Twitter worker批处理8000笔推文时需5分钟,有时甚至要花上12分钟)。

后来,他们改用新的方法来改善,称之为Zapp,利用可提供高吞吐量的GPU来加速,也就是让关键词比对的控制由CPU执行,而需要大量运算的工作交给GPU,大幅缩短了处理的时间,于是计算成本不再随表达式数量的增加而呈线性成长。

Salesforce表示,只需要两颗Nvidia GTX 580的GPU,就足以处理尖峰负载时间的所有推文,这足以省下大量硬件与人力上的资源。

因应用户及数据量激增2到3倍,移动App开发商用GPU架构系统达到省钱之道

在今年GTC大会上,另一个实际印证GPU可应用在大数据处理的例子,是知名的App开发商Shazam。

他们的歌曲查询程序Shazam,在Apple App Store和Google Play的移动装置软件市集中,相当受到欢迎,是音乐类应用的前五大之一。

Shazam App的主要功能是提供歌曲搜寻与辨识的服务,它可以听」用户正在听的音乐,并告知曲目信息。目前在手机与平板计算机下载Shazam的数量,已经超过3亿,而该公司后端拥有的歌曲也在2012年时,达到2,700万笔数据。

看起来,使用这项服务的人众多,同时所要比对的数据也非常庞大,并且是声纹(acoustic fingerprint)比对,系统要能从数千万首歌曲中,判断能否与用户上传的范例音乐相符,困难度可想而知。

社交网站与移动应用普及,导致需分析的数据量暴增

big data

因应成为IT主流趋势的社交网站与移动应用,这两种风潮下所激增的大量资料不容忽视。像Salesforce每天要分析5亿篇推特贴文,这样的成长是在3年内发生;Shazam面对的是3亿用户与2,700万首歌曲的数据库,并且只花了1年,使用者与歌曲数就成长1倍以上。

另一个该公司要去面对的问题,是新进使用者、搜寻次数与歌曲量都在极速成长——他们每天要应付1千万首歌的搜寻请求,每周有2百万个新用户,而所收录的歌曲总数已翻2倍(2011年是1千万首歌)。

为了加速歌曲搜寻与比对过程,以及因应倍增的使用者需求,Shazam决定使用上百颗Nvidia Tesla的GPU,建置低成本的服务器基础设施,因应上述的服务维运规模与成长需求。

Shazam公司的技术长Jason Titus表示,同样花一块钱,GPU可让他们得以获得两倍CPU架构系统的效能,并且能达到自身的成长规模。

 

移动信息化交流QQ群:一号群:211029692 二号群:344692795 CIO交流群:316076815(需认证)

移动化问答社区:wenda.yidonghua.com



1 星2 星3 星4 星5 星 (还没有打分,快来打分吧!)
Loading...
 
已有 1 条评论
  1. 既然在国内也有业务,那么对@新浪微博 会有合作吗?

    2013年9月11日 20:06来自新浪微博 回复
返回顶部

无觅相关文章插件,快速提升流量