资讯专栏INFORMATION COLUMN

从Hadoop框架与MapReduce模式中谈海量数据处理

Shisui / 2754人阅读

摘要:由此,最近凡是空闲时,便在看,海量数据处理这方面的论文。本文从最基本的模式,框架开始谈起,然后由各自的架构引申开来,谈到海量数据处理,最后谈谈淘宝的海量数据产品技术架构,以为了兼备浅出与深入之效,最终,希望得到读者的喜欢与支持。

    几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣, 在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。

    由此,最近凡是空闲时,便在看“Hadoop”,“MapReduce”“海量数据处理”这方面的论文。但在看论文的过程中,总觉得那些论文都是浅尝辄止,常常看的很不过瘾,总是一个东西刚要讲到紧要处,它便结束了,让我好生“愤懑”。

    尽管我对这个Hadoop与MapReduce知之甚浅,但我还是想记录自己的学习过程,说不定,关于这个东西的学习能督促我最终写成和“经典算法研究系列”一般的一系列文章。

    Ok,闲话少说。本文从最基本的mapreduce模式,Hadoop框架开始谈起,然后由各自的架构引申开来,谈到海量数据处理,最后谈谈淘宝的海量数据产品技术架构,以为了兼备浅出与深入之效,最终,希望得到读者的喜欢与支持。谢谢。

    由于本人是初次接触这两项技术,文章有任何问题,欢迎不吝指正。再谢一次。Ok,咱们开始吧。

第一部分、mapreduce模式与hadoop框架深入浅出
架构扼要

         想读懂此文,读者必须先要明确以下几点,以作为阅读后续内容的基础知识储备:

  1. Mapreduce是一种模式。
  2. Hadoop是一种框架。
  3. Hadoop是一个实现了mapreduce模式的开源的分布式并行编程框架。

    所以,你现在,知道了什么是mapreduce,什么是hadoop,以及这两者之间最简单的联系,而本文的主旨即是,一句话概括:在hadoop的框架上采取mapreduce的模式处理海量数据。下面,咱们可以依次深入学习和了解mapreduce和hadoop这两个东西了。

Mapreduce模式

    前面说了,mapreduce是一种模式,一种什么模式呢?一种云计算的核心计算模式,一种分布式运算技术,也是简化的分布式编程模式,它主要用于解决问题的程序开发模型,也是开发人员拆解问题的方法。

    Ok,光说不上图,没用。如下图所示,mapreduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式,流程图如下图1所示:

/ 3 页下一页

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3737.html

相关文章

  • 十年回顾:Hadoop老矣,尚能饭否?

    摘要:在年于上公开了描述其分布式文件系统的论文,为提供了及时的帮助。至年,它逐渐成为一套完整而独立的软件,已经到工作的将这套大数据处理软件命名为。 Hadoop,十岁生日快乐!于2006年1月28日诞生的它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。InfoQ特别策划了系列文章,为大家梳理Hadoop这十年的变化,以及技术圈...

    gyl_coder 评论0 收藏0
  • Hadoop入门:Hadoop简介和集群搭建

    摘要:介绍是旗下的一个用语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。成本低通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。所以的按位存储和处理数据的能力值得人们信赖。会使用台主机组成一个集群。 Hadoop 介绍 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大...

    张金宝 评论0 收藏0
  • Hadoop入门:Hadoop简介和集群搭建

    摘要:介绍是旗下的一个用语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。成本低通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。所以的按位存储和处理数据的能力值得人们信赖。会使用台主机组成一个集群。 Hadoop 介绍 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大...

    kuangcaibao 评论0 收藏0
  • 只需五步,三分钟极速部署企业级大数据平台服务

    摘要:,企业大数据服务最佳选择对企业来说,只需五步,即可在分钟之内部署一套大数据服务来满足自身的各种需求,同时还可进行统一的数据管理,无论从成本还是效率来说,都是企业大数据服务最佳选择。 著名的 OReilly 公司断言:「数据是下一个 ‘Intel Inside’ ,未来属于利用数据并将其转换成产品的公司和人们。」 showImg(https://segmentfault.com/img/...

    darcrand 评论0 收藏0
  • Hadoop导航:版本、生态圈及MapReduce模型

    摘要:版本和生态圈版本版本介绍的开源项目开发流程主干分支新功能都是在主干分支上开发。低版本的后发布版本发布要晚于版本。版本稳定版包含所有特性,经典版。分布式文件系统,通用组件与接口,包括序列化和持久化数据结构。混洗任务和任务之间的数据流成为混。      Hadoop版本和生态圈 1. Hadoop版本 (1) Apache Hadoop版本介绍 Apache的开源项目开发流程: ...

    Wildcard 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<