资讯专栏INFORMATION COLUMN

图文并茂:5分钟了解Hadoop

FleyX / 1137人阅读

摘要:它作为许可协议下的一个开源工具于年被正式发布。它是根据的许可协议发布。这是的存储系统,它把数据分解处理成称之为块的较小部分。在这些节点上对数据进行处理并把结果返回到主节点。

原文链接:
http://www.bigdata-startups.com/BigData-startup/what-is-hadoop-and-five-reasons-organisations-use-hadoop-infographic/

Hadoop原是Hadoop开发者的孩子给自己的大象玩具起的名字。因为原有的数据存储和处理工具对于处理互联网泡沫之后开始出现的海量数据显得力不从心, 所以开发了Hadoop。首先,谷歌提出了MapReduce构架,它能够应对来自整合全球信息任务所产生的数据流,并使这些数据变得具有很高的可访问性。此后,在2005年雅虎开发了基于MapReduce构架的Hadoop。它作为Apache许可协议下的一个开源工具于2007年被正式发布。


几年来,Hadoop已经变成了一个超大规模的操作系统,尤其是应用于时下产生的海量数据所进行的分布式并行处理。像通常的操作系统一样,Hadoop包括完整的文件系统,可编写程序,以及分布式管理这些程序并返回计算结果。


Hadoop支持能同时运行在低廉硬件设备构建的大型集群上的数据密集型分布式应用程序。它是根据Apache v2的许可协议发布。Hadoop网络可靠稳定并且扩展度很高,它可以用来查询海量数据集。Hadoop是用Java所编写的,这意味着它可以在任何平台上运行,并被全球性分销商和已经在Hadoop之上构建了其他软件层面的大数据技术供应商所使用。


Hadoop分布式文件系统(HDFS)这个功能使Hadoop变得非常有用。这是Hadoop的存储系统,它把数据分解处理成称之为”块”的较小部分。这些块随后被分布于整个集群。这种数据分布允许映射(Map)和化简(Reduce)后的功能被执行于更小的子集,而不是在一个大的数据集上。这提高了效率,节约了处理时间, 提高了处理海量数据所需的可扩展性。


MapReduce是一个软件框架和模型,可以处理和检索并行存储在Hadoop系统上的海量数据。MapReduce的函数库已经被用多种编程语言所编写,所以Hadoop能与他们配合工作。另外,MapReduce可以处理结构化和非结构化数据。


MapReduce的工作分两个步骤。第一步骤是“映射(Map)”,其将数据分割为更小的子集,并把这些子集分配到集群中的不同节点上。系统内的节点可以再次执行这项操作,从而导致了一个多层次树结构,它将数据分割于越来越小的子集中。在这些节点上对数据进行处理并把结果返回到“主节点”。 第二步骤是“化简(Reduce)”。 主节点收集所有返回的数据,并把它们组合成某种可重复使用的形式输出。MapReduce框架可以管理所有的各种并行任务和整个系统,并形成Hadoop的心脏。


通过融合多种技术,海量数据可以很容易地存储,并在几分之一秒内被处理和分析。在过去几年中,对于大数据生态系统Hadoop已被证明非常成功,并且看起来前途非常光明。随着Hadoop2.0的开发,它现在使用一种全新的作业处理框架,称之为YARN。YARN是Yet Another Resource Negotiator的缩写,它是一个管理集群计算资源的应用程序调度模块。YARN使多个数据处理引擎,如交互式SQL,实时流媒体,数据科学和批量处理来处理存储在一个单一平台上的数据,创建一个全新的方法来分析。


Hadoop是一个强大的工具,自2005年以来,超过25%的企业目前使用Hadoop来管理他们的数据,在2012年同比增长了10%。以下是企业使用它的几个原因:

低成本;
高计算能力;
高扩展性;
存储灵活性;
数据保护。

Hadoop被用于几乎所有行业,从零售业,到政府,金融。下面由Solix制作的信息图表提供了一个对Hadoop的更深入描述以及一些有趣的预测。

3.jpg

4.jpg 

5.jpg 

6.jpg 

7.jpg 


文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3891.html

相关文章

  • Hadoop新手篇:hadoop入门基础教程

    摘要:新手篇入门基础教程关于的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧。上两周写的五篇内容,汇总到一起就算是新手入门的一个基础性教程吧持续更新中。应该在改版完成后就可以正常申请下载了。 Hadoop新手篇:hadoop入门基础教程关于hadoop的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧。最近可能还算好的吧,毕竟花了两周的时间详细的写完的了hadoop...

    levinit 评论0 收藏0
  • 超详细Dkhadoop虚拟机安装图文教程

    摘要:超详细虚拟机安装图文教程前两天看到有人留言问在什么情况下需要部署,我给的回答也很简单,就是在需要处理海量数据的时候才需要考虑部署。图图为虚拟机命名,如下图,命名按照自己喜欢即可,点击下一步进行处理器配置。 超详细Dkhadoop虚拟机安装图文教程前两天看到有人留言问在什么情况下需要部署hadoop,我给的回答也很简单,就是在需要处理海量数据的时候才需要考虑部署hadoop。关于这个问题...

    ChanceWong 评论0 收藏0
  • 2014的12个大数据趋势:Hadoop继续升温,R将进入主流

    摘要:越来越多的企业拥抱大数据技术,并将其运用到生产环境中。将成为企业的关键组件将普及,大数据也不会再继续止步于云服务。认为,年,的适用场景将超越批处理和存储,将成为企业数据架构中通用的核心组件,这意味着数据分析将继续成为大数据的首要用例。 当下,大数据已成为2013年最火的技术词汇之一;而在过去一年,这个市场的增速和改变也不可谓不大。同时,我们还看到了Hadoop及其生态 系统的使用门槛从顶尖技...

    pingink 评论0 收藏0
  • UCloud用户社区UClub新手使用指南

    摘要:用户社区的使用用户社区为实名制社区,在提问回复或发文评论前必须绑定手机号才能够正常发帖。官方有权对灌水违法违规不文明内容进行删除。亲爱的小伙伴你好!首先感谢你来到UCoud用户社区,期待你的加入!UClub用户社区旨在为UCloud用户及广大云计算爱好者提供一个开放的学习交流平台。为了你能更好地使用UCloud用户社区,请你花费3分钟仔细阅读,阅读完成后将获得10积分。UCloud用户社区的...

    Tecode 评论0 收藏0
  • Kafka图文详解

    摘要:每一次写操作都分发到所有副本只有大部分节点应答才能提交写缺点随着副本数的增加集群中需要的节点数量比较多存储元数据数据量不是很大使用比较合适对于一次写的提交要求当前中的所有成员都才算提交写成功的大小是可配置的和副本数量没有关系比如个副本可以 Every write operation goes to all replicas, but only responsesfrom a majority...

    FrancisSoung 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<