摘要:版本和生态圈版本版本介绍的开源项目开发流程主干分支新功能都是在主干分支上开发。低版本的后发布版本发布要晚于版本。版本稳定版包含所有特性,经典版。分布式文件系统,通用组件与接口,包括序列化和持久化数据结构。混洗任务和任务之间的数据流成为混。
Hadoop版本和生态圈(1) Apache Hadoop版本介绍
Apache的开源项目开发流程:
造成Hadoop版本混乱的原因:
Apache Hadoop版本示意图:
(2) Apache Hadoop版本功能介绍
第一代Hadoop特性:
第二代Hadoop特性:
0.20版本分支:只有这个分支是稳定版本,其它分支都是不稳定版本。
0.21版本分支(不稳定版):包含append raid symlink namenodeHA,不包含security。
0.22版本分支(不稳定版):包含 append raid symlink那么弄得HA,不包含mapreduce security。
0.23版本分支:
(3) Cloudera Hadoop对应Apache Hadoop版本
2. Hadoop生态圈
Apache支持:Hadoop的核心项目都受Apache支持的,除了Hadoop之外,还有下面几个项目,也是Hadoop不可或缺的一部分。
MapReduce简介:MapReduce是一种数据处理编程模型。
MapReduce数据模型:
MapReduce作业组成:一个MapReduce工作单元,包括输入数据,MapReduce程序和配置信息。
作业控制:作业控制由JobTracker(一个)和TaskTracker(多个)进行控制的。
输入分片:MapReduce程序执行的时候,输入的数据会被分成等长的数据块,这些数据块就是分片。
数据本地优化:map任务运行在本地存储数据的节点上,才能获得较好的效率。
Map任务输出:Map任务执行结束后,将计算结果写入到本地硬盘,不是写入到HDFS中。
Reduce任务:map任务的数量要远远多于Reduce任务。
MapReduce数据流框图解析:
Map输出分区:多个reduce任务,每个reduce任务都对应着一些map任务,我们将这些map任务根据其输入reduce任务进行分区,为每个reduce建立一个分区。
混洗:map任务和reduce任务之间的数据流成为混。
没有Reduce:当数据可以完全并行处理的时候,就可以不适用reduce,只进行map任务。
4. Combiner 引入MapReduce瓶颈:带宽限制了MapReduce执行任务的数量,Map和Reduce执行过程中需要进行大量的数据传输。
解决方案:合并函数Combiner,将多个Map任务输出的结果合并,将合并后的结果发送给Reduce作业。
5. HadoopStreamingHadoop多语言支持:Java、Python、Ruby、C++
Streaming处理文本:Streaming在文本处理模式下,有一个数据行视图,非常适合处理文本。
Pipes概念:Pipes是MapReduce的C++接口
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/3875.html
摘要:大数据存储,利用的分布式存储能力,例如数据备份数据仓库等。大数据处理,利用的分布式处理能力,例如数据挖掘数据分析等。应用程序管理器负责管理整个系统中所有应用程序,包括应用程序的提交与调度器协商资源以启动监控运行状态并在失败时重新启动等。 经过多年信息化建设,我们已经进入一个神奇的大数据时代,无论是在通讯社交过程中使用的微信、QQ、电话、短信,还是吃喝玩乐时的用到的团购、电商、移动支付,...
摘要:在近些年经历了哪些变化呢未来又会有哪些规划韩冀中就像实战这本书里提到的,在版本中引入了一个新的,作者预计在中旧的会被废弃。对于是应用程序框架这一概念,能否谈谈您的理解韩冀中是一个复杂的系统。 人物简介:韩冀中 博士,中国科学院计算技术研究所副研究员,研究生导师,长期从事并行分布式计算领域的科研工作。国内早期的Hadoop使用者之一,有丰富的相关应用开发经验。 研究方...
摘要:机器学习的开源项目除了之前的等,今年发生了很多令人瞩目的大事,迎来了数个明星巨头的重磅加入年月,开源前沿深度学习工具。由一个服务于分布式机器学习的框架和一组分布式机器学习算法组成,可将机器学习算法应用到大数据中。 本文分为技术篇、产业篇、应用篇、展望篇四部分技术篇2006年项目成立的一开始,Hadoop这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表...
摘要:业内哪些事情值得关注大数据解决方案提供商上市。加密过程是端到端的,这意味着数据只能在应用程序解密。计划未来支持部署在多机房,实现跨机房容灾,零丢失率,低延时。目前支持此种方式的数据类型有。 时代在变迁,市场在变化,周边的软硬件环境也突飞猛进般的发展,同时企业的业务需求也不断升级,从规模到成本都有较高的要求,这刺激Hadoop生态圈的变革。据AMR研究显示,到2020年Hadoop将拥有502...
摘要:在年于上公开了描述其分布式文件系统的论文,为提供了及时的帮助。至年,它逐渐成为一套完整而独立的软件,已经到工作的将这套大数据处理软件命名为。 Hadoop,十岁生日快乐!于2006年1月28日诞生的它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。InfoQ特别策划了系列文章,为大家梳理Hadoop这十年的变化,以及技术圈...
阅读 1257·2021-09-30 09:47
阅读 3255·2021-09-22 15:05
阅读 2664·2021-08-30 09:44
阅读 3418·2019-08-30 15:55
阅读 1244·2019-08-30 13:08
阅读 1213·2019-08-29 16:40
阅读 426·2019-08-29 12:45
阅读 1225·2019-08-29 11:25