资讯专栏INFORMATION COLUMN

给Hadoop一个支点:撬动大数据

LoftySoul / 3255人阅读

摘要:大数据大概是继云计算之后,最热门的科技名词了。一些科技厂商不约而同,纷纷打出大数据口号,情况就像云计算热潮一样。最近,终于发表正式版,就像是只要给我一个支点,就能撑起地球,或许就是撑起大数据的那个支点。

大数据大概是继云计算之后,最热门的科技名词了。一些科技厂商不约而同,纷纷打出大数据口号,情况就像云计算热潮一样。那么大数据到底是怎么回事?

大数据照字面翻译,就是"大数据",而这个"大",最起码包含3种意思:大量的数据存储、很大的数据、很大的数据库。所以就中文译名来看,不论是翻成"大数据"或"海量数据",其实都只能道出大数据的部分特性。然而,不管是大数据或是海量数据,都指向一个共同的趋势,就是数据增长的速度越来越快,而之所以能构成大数据这个新议题,就在于数据量之大已不同之前,目前的技术已经难以处理。

以前只有少数的产业会面临海量数据处理、分析的需求,例如气象、基因、科学仿真,或是金融交易诈欺分析等等,但随着科技应用的改变,有更多的产业也面临海量数据分析的挑战。例如搜索引擎厂商要索引全球的网页,就是一个艰巨的任务;电子商务企业要掌握顾客消费行为,所要分析的数据也越来越多。

以eBay的使用经验为例,看到国外媒体的看到稿件上写着eBay的数据库每天增加50TB,一度怀疑是不是粗心把5TB多加了个零,结果真的是50TB.因为eBay每天最少都有数百万次的商品查询,数据库每日增加1.5兆笔记录,而数据库的总容量则已超过9PB.所以,不仅每天新增的数据量庞大,连数据库也是超级庞大,而要从中分析顾客的浏览、消费行为,就是一件困难的事情。

大家熟悉的Facebook社交网站,每天都有数亿用户留下庞大的数据,甚至其中有很大的比例是图片、影片等传统数据库系统较不擅长的非结构化数据。这不仅挑战社交网站厂商如何管理,对于想利用社交网站来掌握消费者动态的企业而言,所面临的挑战也是前所未有的。

美国较大的超市Wal-Mart,既要分析顾客在网站上的购物行为,还要分析消费者是通过哪些关键词的搜索跳转而来,甚至,Wal-Mart想要进一步分析顾客在Facebook等社交网站的动态。Wal-Mart过去通过结账数据分析,将啤酒与纸尿布摆在一起,促进了啤酒的销售量,此举令人津津乐道。然而,这已经是属于事后分析,未来他们想要更主动了解顾客在社交网站反应的个人状态,早一步掌握潜在的消费需求,有可能他们以后会比父亲更快知道女儿怀孕了。

其实制造业也面临相同的挑战,例如随着晶圆的规格越来越精细,要掌握更精细的制程分析数据以确保准确率,就必须分析比过去还要多很多的数据。那么如何有能力分析海量数据,以及在可接受的时间内完成数据分析,就是个关键了。为此,很多公司就早早布局大数据的关键技术──Hadoop.

未来会有更多的产业要面临庞大数据量的挑战,而目前走在前头的企业,都不约而同的采用Hadoop这样的技术来克服难题。

Hadoop是基于Google搜索引擎的分布式计算技术,Google的哲学是蚂蚁雄兵精神,利用大量平价的服务器,搭配平行计算架构,以最符合经济效益的方式创造庞大的计算量。当Hadoop以此技术发展出海量数据平台,对企业而言无疑是一道克服海量数据挑战的曙光,因为企业可以不再依赖价格高昂的大型专属设备,而可以通过自建大量x86服务器群集来解决。

最近,Hadoop终于发表1.0正式版,就像是只要给我一个支点,就能撑起地球,Hadoop或许就是撑起大数据的那个支点。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3770.html

相关文章

  • Hadoop数据平台撑起Big Data挑战

    摘要:当以此技术发展出海量数据平台,对企业而言无疑是一道克服海量数据挑战的曙光,因为企业可以不再依赖价格高昂的大型专属设备,而可以通过自建大量服务器群集来解决。 Big Data大概是继云计算之后,最热门的科技名词了。一些科技厂商不约而同,纷纷打出Big Data口号,情况就像云计算热潮一样。那么Big Data到底是怎么回事?   Big Data照字面翻译,就是大数据,而这个大,最起码包含3种...

    1fe1se 评论0 收藏0
  • 快速排序就这么简单

    摘要:快速排序的介绍来源百度百科快速排序由在年提出。快速排序是面试出现的可能性比较高的,也是经常会用到的一种排序,应该重点掌握。前面一个章节已经讲了递归了,那么现在来看快速排序就非常简单了。 快速排序就这么简单 从前面已经讲解了冒泡排序、选择排序、插入排序了,本章主要讲解的是快速排序,希望大家看完能够理解并手写出快速排序的代码,然后就通过面试了!如果我写得有错误的地方也请大家在评论下指出。 ...

    Faremax 评论0 收藏0
  • UCloud撬动东南亚市场,占领竞技手游“淘金地”

    摘要:以越南为例,从年开始,巨人畅游等中国游戏厂商相继进入越南市场,一度占领当地的市场份额。微软雅黑宋体淘金东南亚,竞技类手游多地开花微软雅黑宋体年,东南亚手游用户规模突破亿,且手游营收年均增幅超过,更是成为全球手游市场增长最快的地区。从《还珠格格》到去年位居电视剧榜单之首的《延禧宫略》,越来越多国产影视作品,漂洋过海进入越南、泰国等东南亚国家,持续火爆的同时,也收割了无数废寝忘食的忠实粉丝。可见...

    Pluser 评论0 收藏0
  • 基础排序总结

    摘要:不断执行这个操作代码实现快速排序用递归比较好写如果不太熟悉递归的同学可到递归就这么简单。 前言 大概花了一周的时间把八大基础排序过了一遍,这篇博文主要是用来回顾一下八大基础排序的要点和一些总结~ 回顾: 冒泡排序就这么简单 选择排序就这么简单 插入排序就这么简单 快速排序就这么简单 归并排序就这么简单 堆排序就这么简单 希尔排序就这么简单 基数排序就这么简单 总的来说:快速排序是用...

    maochunguang 评论0 收藏0
  • V8数组排序方法sort浅析

    摘要:出于性能优化的目的,当数组排序区间长度在之内时,实际的排序方法是插入排序,其余时候使用快速排序。大体上,这个排序方法的思想是对数组进行区间划分,当排序区间大于时,使用快排,使局部有序,当区间小于等于时使用插入排序,使数组整体有序。 数组排序方法sort浅析 数组提供了排序方法,使用时传入一个比较函数,根据比较函数的返回来确定元素最终在数组中的位置。默认排序顺序是根据字符串Unicode...

    instein 评论0 收藏0

发表评论

0条评论

LoftySoul

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<