资讯专栏INFORMATION COLUMN

云计算的利刃:快速部署Hadoop集群

waltr / 2560人阅读

摘要:近来云计算越来越热门了,云计算已经被看作业的新趋势。云计算领域已经成为众多跨国巨头未来决斗的主战场。云计算庞大的市场规模超乎想象。自年开始,各大企业已经展开一场硝烟滚滚的争夺战,以实现自己在云计算市场中未来的霸主地位。

近来云计算越来越热门了,云计算已经被看作IT业的新趋势。云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费。可以通过 Internet 访问“云”中的任何资源,而不需要担心计算能力、带宽、存储、安全性和可靠性等问题。

  从企业的角度来说,日益增长的信息已经很难存储在标准关系型数据库甚至数据仓库中。这些问题提到了一些在实践中已存在多年的难题。例如:怎样查询一个十亿行的表?怎样跨越数据中心所有服务器上的所有日志来运行一个查询?更为复杂的问题是,大量需要处理的数据是非结构化或者半结构化的,这就更难查询了。

  “云计算”领域已经成为众多跨国IT巨头未来“决斗”的主战场。由于意识到“云计算”将是一场改变IT格局的划时代变革,几乎所有重量级跨国IT巨头从不同领域和角度开始在“云计算”领域扎根,这个阵营的主力包括Amazon、Google、IBM、Mircosoft、VMware、Cisoco、Intel、AMD、Oracle、SAP、HP、Dell、Citrix、 Redhat、Novell、Yahoo等等。美国硅谷目前已约有150家涉及“云计算”的企业,新的商业模式层出不穷。

  “云计算”庞大的市场规模超乎想象。按照最乐观估计,IDC推算未来3年全球“云计算”领域将有8000亿美元的新业务收入。显然,全球各IT巨头竞相进入“云计算”领域背后的原因是未来天文数字般的市场规模以及由此带来的无比光明的发展前景。自2011年开始,各大IT企业已经展开一场硝烟滚滚的争夺战,以实现自己在“云计算”市场中未来的霸主地位。

  Hadoop简介

  Apache Hadoop 是一个软件框架,它可以分布式地操纵大量数据。它于2006年首次提及,由 Google、Yahoo! 和 IBM 等公司支持。可以认为它是一种 PaaS 模型。

  它的设计核心是 MapReduce 实现和 HDFS (Hadoop Distributed File System),它们源自 MapReduce(由一份 Google 文件引入)和 Google File System。

  MapReduce 是 Google 引入的一个软件框架,它支持在计算机(即节点)集群上对大型数据集进行分布式计算。它由两个过程组成,映射(Map)和缩减(Reduce)。

  在映射过程中,主节点接收输入,把输入分割为更小的子任务,然后把这些子任务分布到工作者节点。

  工作者节点处理这些小任务,把结果返回给主节点。

  然后,在缩减过程中,主节点把所有子任务的结果组合成输出,这就是原任务的结果。

  MapReduce 的优点是它允许对映射和缩减操作进行分布式处理。因为每个映射操作都是独立的,所有映射都可以并行执行,这会减少总计算时间。

  对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,因此这是 HDFS 的一个缺点(单点失败)。

  存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的 RAID 架构大不相同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

  NameNode 是一个通常在 HDFS 实例中的多带带机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。对于最常见的 3 个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。注意,这里需要您了解集群架构。

  实际的 I/O 事务并没有经过 NameNode,只有表示 DataNode 和块的文件映射的元数据经过 NameNode。当外部客户机发送请求要求创建文件时,NameNode 会以块标识和该块的第一个副本的 DataNode IP 地址作为响应。这个 NameNode 还会通知其他将要接收该块的副本的 DataNode。

  NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件(这里是 EditLog)将存储在 NameNode 的本地文件系统上。FsImage 和 EditLog 文件也需要复制副本,以防文件损坏或 NameNode 系统丢失。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3717.html

相关文章

  • 托管Hadoop集群 快速上手 UHadoop

    摘要:也可以将托管集群设置为快捷方式,通过左侧快捷方式菜单栏点击进入。框架集群中仅部署。用于做存储集群,有专属的节点机型。节点管理节点,负责协调整个集群服务。目前仅节点支持绑定。通过云主机内网进行登录。登录密码为集群创建时设置的密码。 快速上手本篇目录创建集群提交任务本文档将带领您如何创建UHadoop集群,并使用UHadoop集群完成数据处理任务。创建集群本章简单介绍了用户使用UHadoop服务...

    ernest.wang 评论0 收藏295
  • Sahara顺利毕业,将加速OpenStack与Hadoop融合

    摘要:旧称项目的负责人昨天正式宣布,从孵化项目顺利毕业,将从下一版本开始作为核心项目之一。是技术的一种实现,目前被各行业广泛采用,已成为大数据处理的行业标准。 OpenStack Sahara(旧称:Savanna)项目的负责人Sergey Lukjanov昨天正式宣布,Sahara从OpenStack孵化项目顺利毕业,将从OpenStack下一版本Juno开始作为OpenStack 核心项目之...

    xiangzhihong 评论0 收藏0
  • 跟上大数据步伐:快速搭建Spark集群

    摘要:本文详细介绍了基于进行集群资源调度的数人云,如何部署集群。数人云集群正是通过进行集群资源调度,因此,数人云部署集群,有着天然的优势。 Spark 是 UC Berkeley AMP lab 开源的类 Hadoop MapReduce 的通用的并行计算框架,Spark 基于 map reduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的优点,并且 能更好地适...

    elina 评论0 收藏0
  • 顶级Hadoop发行版四个对比因素

    摘要:顶端的发行版的企业级功能三个独立的供应商的开发方法有一些明显的差异。成员声称,这将提高互操作性,并减少供应商的锁定。 通过检查较高级的Hadoop发行版的关键特征,你可以决定哪些订阅适合你的组织。虽然软件组件构成的Hadoop生态系统堆栈是开源技术,但是采用付费订阅使用其供应商的商业Hadoop平台会为企业带来许多好处。例如,订阅可以提供技术支持和培训,以及访问那些不提供给开源社区的企业功能...

    NeverSayNever 评论0 收藏0
  • 顶级Hadoop发行版四个对比因素

    摘要:顶端的发行版的企业级功能三个独立的供应商的开发方法有一些明显的差异。成员声称,这将提高互操作性,并减少供应商的锁定。 通过检查较高级的Hadoop发行版的关键特征,你可以决定哪些订阅适合你的组织。虽然软件组件构成的Hadoop生态系统堆栈是开源技术,但是采用付费订阅使用其供应商的商业Hadoop平台会为企业带来许多好处。例如,订阅可以提供技术支持和培训,以及访问那些不提供给开源社区的企业功能...

    felix0913 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<