资讯专栏INFORMATION COLUMN

Hadoop大数据平台撑起Big Data挑战

1fe1se / 2982人阅读

摘要:当以此技术发展出海量数据平台,对企业而言无疑是一道克服海量数据挑战的曙光,因为企业可以不再依赖价格高昂的大型专属设备,而可以通过自建大量服务器群集来解决。

Big Data大概是继云计算之后,最热门的科技名词了。一些科技厂商不约而同,纷纷打出Big Data口号,情况就像云计算热潮一样。那么Big Data到底是怎么回事?

  Big Data照字面翻译,就是“大数据”,而这个“大”,最起码包含3种意思:大量的数据存储、很大的数据、很大的数据库。所以就中文译名来看,不论是翻成“大数据”或“海量数据”,其实都只能道出Big Data的部分特性。然而,不管是大数据或是海量数据,都指向一个共同的趋势,就是数据增长的速度越来越快,而之所以能构成Big Data这个新议题,就在于数据量之大已不同之前,目前的技术已经难以处理。

  以前只有少数的产业会面临海量数据处理、分析的需求,例如气象、基因、科学仿真,或是金融交易诈欺分析等等,但随着科技应用的改变,有更多的产业也面临海量数据分析的挑战。例如搜索引擎厂商要索引全球的网页,就是一个艰巨的任务;电子商务企业要掌握顾客消费行为,所要分析的数据也越来越多。

  以eBay的使用经验为例,看到国外媒体的看到稿件上写着eBay的数据库每天增加50TB,一度怀疑是不是粗心把5TB多加了个零,结果真的是50TB.因为eBay每天最少都有数百万次的商品查询,数据库每日增加1.5兆笔记录,而数据库的总容量则已超过9PB.所以,不仅每天新增的数据量庞大,连数据库也是超级庞大,而要从中分析顾客的浏览、消费行为,就是一件困难的事情。

  大家熟悉的Facebook社交网站,每天都有数亿用户留下庞大的数据,甚至其中有很大的比例是图片、影片等传统数据库系统较不擅长的非结构化数据。这不仅挑战社交网站厂商如何管理,对于想利用社交网站来掌握消费者动态的企业而言,所面临的挑战也是前所未有的。

  美国较大的超市Wal-Mart,既要分析顾客在网站上的购物行为,还要分析消费者是通过哪些关键词的搜索跳转而来,甚至,Wal-Mart想要进一步分析顾客在Facebook等社交网站的动态。Wal-Mart过去通过结账数据分析,将啤酒与纸尿布摆在一起,促进了啤酒的销售量,此举令人津津乐道。然而,这已经是属于事后分析,未来他们想要更主动了解顾客在社交网站反应的个人状态,早一步掌握潜在的消费需求,有可能他们以后会比父亲更快知道女儿怀孕了。

  其实制造业也面临相同的挑战,例如随着晶圆的规格越来越精细,要掌握更精细的制程分析数据以确保准确率,就必须分析比过去还要多很多的数据。那么如何有能力分析海量数据,以及在可接受的时间内完成数据分析,就是个关键了。为此,很多公司就早早布局Big Data的关键技术──Hadoop.

  未来会有更多的产业要面临庞大数据量的挑战,而目前走在前头的企业,都不约而同的采用Hadoop这样的技术来克服难题。

  Hadoop是基于Google搜索引擎的分布式计算技术,Google的哲学是蚂蚁雄兵精神,利用大量平价的服务器,搭配平行计算架构,以最符合经济效益的方式创造庞大的计算量。当Hadoop以此技术发展出海量数据平台,对企业而言无疑是一道克服海量数据挑战的曙光,因为企业可以不再依赖价格高昂的大型专属设备,而可以通过自建大量x86服务器群集来解决。

  最近,Hadoop终于发表1.0正式版,就像是只要给我一个支点,就能撑起地球,Hadoop或许就是撑起Big Data的那个支点。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3754.html

相关文章

  • Hadoop一个支点:撬动数据

    摘要:大数据大概是继云计算之后,最热门的科技名词了。一些科技厂商不约而同,纷纷打出大数据口号,情况就像云计算热潮一样。最近,终于发表正式版,就像是只要给我一个支点,就能撑起地球,或许就是撑起大数据的那个支点。 大数据大概是继云计算之后,最热门的科技名词了。一些科技厂商不约而同,纷纷打出大数据口号,情况就像云计算热潮一样。那么大数据到底是怎么回事? 大数据照字面翻译,就是大数据,而这个大,最起码包...

    LoftySoul 评论0 收藏0
  • 解读:分布式计算平台Hadoop 发展现状

    摘要:雅虎开发者六年前创建了一个用于管理,存储和分析大量数据的分布式计算平台,现在大家也称云计算平台,用他儿子的玩具大象命名,并把它交给阿帕奇软件基金会。解读分布式计算平台发展现状,成立于年,也许是最成立的年轻的致力于的公司。 雅虎开发者Doug Cutting六年前创建了一个用于管理,存储和分析大量数据的分布式计算平台Hadoop,现在大家也称云计算平台,用他儿子的玩具大象命名,并把它交 给阿...

    fai1017 评论0 收藏0
  • 切勿妄谈Hadoop,以及4个数据管道打造实践

    摘要:数据体积高达这种级别的数据仍然称不上大数据,当下的笔记本的内存都可以添加到了,而且许多工具并不是一次性将数据完全加载到内存的。大数据的有限价值今天我们几乎可以存储任何具有业务目的明显的数据,比如信用卡销售及问卷调查。 Hadoop只是运行某个通用计算的工具,正因为如此,在使用过程中你会受限于多种规则,比如所有计算都必须按照一个map、一个group by、一个aggregate或者这种计算序...

    chnmagnus 评论0 收藏0
  • 2012:云计算的春天

    回顾2012,更多开放,更多协作,更多机会产生。从来没有一项服务会将几乎所有IT、互联网、通信技术整合在一起,没有合作、开放的心态就没有云计算。接下来,将从IaaS、NoSQL与NewSQL、数据中心、大数据、安全这几个方面对过去一年作出总结。IaaS——群雄追赶AWS谈到IaaS,Google和AWS是公认的业界最强。AWS是全球将IaaS这个business运营的较好的公司,除了技术领先,还要...

    Vicky 评论0 收藏0
  • Hadoop之父Doug Cutting:AI将为Hadoop社群的未来带来挑战

    摘要:在本次会议召开之前,君对这位之父进行了专访。不过,他也坦言,和机器学习领域无疑是未来面临的挑战之一,目前许多机器学习跟技术许多都是开放源代码技术,革命不是由单一组织推动。在今年四月底正式于纽交所上市,发行价为每股美元。 7月13日~15日,全球最较高级大数据会议Strata Data Conference在北京召开。在会议上,我们看到了一个熟悉的身影——Hadoop之父、Cloudera 首...

    SHERlocked93 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<