资讯专栏INFORMATION COLUMN

Hadoop分布式集群的搭建

leon / 777人阅读

摘要:分布式集群的搭建关键词分布式集群环境搭建网络配置环境大数据大数据本文作者本文链接安装说明用到的软件软件版本下载地址节点安排名称主节点子节点子节点创建用户所有的节点均创建一个名为的用户,并添加管理员权限。后续的软件均可使用此方式配置。


title: Hadoop分布式集群的搭建
summary: 关键词: Hadoop ubuntu 分布式集群 环境搭建 ssh 网络配置 java环境
date: 2019-5-19 11:09
author: foochane
urlname: 2019051901
categories: 大数据
tags:

hadoop

大数据


本文作者:foochane 
本文链接:https://foochane.cn/article/2019051901.html
1 安装说明 1.1 用到的软件
软件 版本 下载地址
linux Ubuntu Server 18.04.2 LTS https://www.ubuntu.com/downlo...
hadoop hadoop-2.7.1 http://archive.apache.org/dis...
java jdk-8u211-linux-x64 https://www.oracle.com/techne...
1.2 节点安排
名称 ip hostname
主节点 192.168.233.200 Master
子节点1 192.168.233.201 Slave01
子节点2 192.168.233.202 Slave02
2 创建hadoop用户

所有的节点均创建一个名为hadoop的用户,并添加管理员权限。
注意:这里这是单纯为了方便管理,创建的用户名,也可以使用其他用户名,或者使用系统之前的用户,主要有管理员权限即可

$ sudo useradd -m hadoop -s /bin/bash #创建用户
$ sudo passwd hadoop #修改密码
$ sudo adduser hadoop sudo #添加管理员权限
3 配置网络环境 3.1 修改主机名

修改 /etc/hostname文件,每个节点都要修改。

主节点修改为:Master

从节点分别修改为:Slave01,Slave02,...

注意:如果是ubuntu18.04桌面版直接修改/etc/hostname文件即可,ubuntu18.04服务器版还需要修改/etc/cloud/cloud.cfg文件,修改如下:

# This will cause the set+update hostname module to not operate (if true)
preserve_hostname: true  #这里是将false改成true
3.2 添加IP与主机名的映射关系

/etc/hosts文件里添加如下内容(每个节点都要修改,根据实际情况修改ip)

192.168.233.200  Master
192.168.233.201  Slave01
192.168.233.202  Slave02

检查各个节点是否能相互ping通。

3.3 设置SSH无密码登录节点

让Master能够通过SSH无密码登录各个Slave节点

如果修改过主机名,需要重新生成的新的公钥。

在Master上执行如下命令:

$ cd ~/.ssh              # 如果没有该目录,先执行一次ssh localhost
$ rm ./id_rsa*           # 删除之前生成的公匙(如果已经存在)
$ ssh-keygen -t rsa       # 执行该命令后,遇到提示信息,一直按回车就可以
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

接着将Master中的id_rsa.pub文件复制到各个Slave节点中

$ scp ~/.ssh/id_rsa.pub hadoop@Slave01:/home/hadoop/
$ scp ~/.ssh/id_rsa.pub hadoop@Slave02:/home/hadoop/

在各个Slave节点中执行如下命令:

$ mkdir ~/.ssh       # 如果不存在该文件夹需先创建
$ cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
$ rm ~/id_rsa.pub    # 用完以后就可以删掉

在Master中验证是否可以无密码登录,各个Slave节点。

如:

$ ssh Slave01 #如果成功登录,则配置完成
$ ssh Slave02 #如果成功登录,则配置完成
4 安装java环境

每个节点都要安装,步骤相同
为了方便操作每个节点,默认在/usr/local/下新建一个名为bigdata的文件夹,存放所有的大数据相关的软件。

$ sudo mkdir /usr/local/bigdata
$ sudo chown -R hadoop:hadoop /usr/local/bigdata/
4.1 解压
$ sudo mkdir /usr/local/bigdata/java
$ sudo tar -zxvf jdk-8u211-linux-x64.tar.gz -C /usr/local/bigdata/java/
4.2 添加环境变量

~/.bashrc文件中添加如下内容,并执行$ source ~/.bashrc命令使其生效

#java
export JAVA_HOME=/usr/local/bigdata/java/jdk1.8.0_211
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
5 解压hadoop

下载hadoop-2.7.1.tar.gz文件,并解压到/usr/local/bigdata/文件夹下

$ sudo tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local/bigdata
6 修改hadoop配置文件

需要修改6个文件,文件位于/usr/local/bigdata/hadoop-2.7.1/etc/hadoop/

6.1 slave 文件

将文件中原来的 localhost 删除,添加内容:

Slave01
Slave02
6.2 core-site.xml 文件

内容修改为:


        
        
                fs.defaultFS
                hdfs://Master:9000
        

         
        
                hadoop.tmp.dir
                file:/usr/local/bigdata/hadoop-2.7.1/tmp
                Abase for other temporary directories.
        
6.3 hdfs-site.xml文件

Hadoop的分布式文件系统HDFS一般采用冗余存储,一份文件通常保存3份副本,所以dfs.replication的值还是设置为3。
具体内容如下:


        
                
                dfs.namenode.secondary.http-address
                Master:50090
        
        
                dfs.replication
                3
        
        
                dfs.namenode.name.dir
                file:/usr/local/bigdata/hadoop-2.7.1/tmp/dfs/name
        
        
                dfs.datanode.data.dir
                file:/usr/local/bigdata/hadoop-2.7.1/tmp/dfs/data
        
6.4 mapred-site.xml 文件

修改内容如下:


        
                mapreduce.framework.name
                yarn
        
        
                mapreduce.jobhistory.address
                Master:10020
        
        
                mapreduce.jobhistory.webapp.address
                Master:19888
        
6.5 yarn-site.xml文件

内容如下:


        
                yarn.resourcemanager.hostname
                Master
        
        
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
6.6 hadoop-env.sh 文件

修改如下内容:

export JAVA_HOME=/usr/local/bigdata/java/jdk1.8.0_211

# 可以不用
export HADOOP_HOME=/usr/local/hadoop-2.7.1
7 设置hadoop环境变量

每个节点都要设置
~/.bashrc文件中添加如下内容,并$ source ~/.bashrc使其生效

export PATH=$PATH:/usr/local/bigdata/hadoop-2.7.1/bin:/usr/local/bigdata/hadoop-2.7.1/sbin
8 slave节点配置

slave节点只需将master节点上/usr/local/下的bigdata文件夹和~/.bashrc文件,放到slave节点即可
注意切换到对应机器执行$ source ~/.bashrc使环境变量生效。

后续的软件均可使用此方式配置。

在master节点:

$ sudo rm -r /usr/local/bigdata/hadoop-2.7.1/tmp     # 删除 Hadoop 临时文件,如果之前有启动过
$ sudo rm -r /usr/local/bigdata/hadoop-2.7.1/logs/*   # 删除日志文件,如果之前有启动过
$ tar -zcvf ~/bigdata.tar.gz /usr/local/bigdata/ # 先压缩再复制
$ scp ~/bigdata.tar.gz Slave01:/home/hadoop
$ scp ~/bigdata.tar.gz Slave02:/home/hadoop
$ scp ~/bashrc Slave01:/home/hadoop
$ scp ~/bashrc Slave02:/home/hadoop

在各个slave节点上

$ sudo mkdir /usr/local/bigdata
$ sudo chown -R hadoop:hadoop /usr/local/bigdata
$ tar -zxvf ~/bigdata.tar.gz -C /usr/local/bigdata
$ sudo source ~/.bashrc
9 启动Hadoop集群

在Master上执行
首次运行需要,执行

$ hdfs namenode -format 

格式化名称节点,然后就可以启动hadoop了。

启动hadoop:

$ start-dfs.sh
$ start-yarn.sh
$ mr-jobhistory-daemon.sh start historyserver

使用jps查看启动的各个节点,缺少任何进程,都表示出错。

$ jps
3585 JobHistoryServer
2938 NameNode
3148 SecondaryNameNode
3308 ResourceManager
3629 Jps

浏览器查看:http://192.168.233.200:50070/

查看相关信息:$ hdfs dfsadmin -report

关闭hadoop:

$ stop-yarn.sh
$ stop-dfs.sh
$ mr-jobhistory-daemon.sh stop historyserver

如果有问题,重复如下命令:

$ stop-dfs.sh   # 关闭
$ rm -r /usr/local/bigdata/hadoop-2.7.1/tmp     # 删除 tmp 文件,注意这会删除 HDFS中原有的所有数据
$ hdfs namenode -format   # 重新格式化名称节点
$ start-dfs.sh  # 重启

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/36035.html

相关文章

  • Hadoop入门:Hadoop简介和集群搭建

    摘要:介绍是旗下的一个用语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。成本低通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。所以的按位存储和处理数据的能力值得人们信赖。会使用台主机组成一个集群。 Hadoop 介绍 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大...

    张金宝 评论0 收藏0
  • Hadoop入门:Hadoop简介和集群搭建

    摘要:介绍是旗下的一个用语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。成本低通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。所以的按位存储和处理数据的能力值得人们信赖。会使用台主机组成一个集群。 Hadoop 介绍 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大...

    kuangcaibao 评论0 收藏0
  • hadoop集群管理系统搭建规划说明

    摘要:集群管理系统搭建规划说明分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么原因无法创建成功。也是如此,它负责管理集群中的资源和任务调度,你也可以把它视为大数据操作系统。 hadoop集群管理系统搭建规划说明Hadoop分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么...

    ThreeWords 评论0 收藏0
  • 基于Docker搭建Hadoop集群之升级版

    摘要:总之,项目还算很受欢迎吧,这篇博客将介绍项目的升级版。一项目介绍将打包到镜像中,就可以快速地在单个机器上搭建集群,这样可以方便新手测试和学习。之前的版本使用为集群提供服务,由于网络功能更新,现在并不需要了。运行参考第二部分启动,并运行。 摘要: kiwenlau/hadoop-cluster-docker是去年参加Docker巨好玩比赛开发的,得了二等奖并赢了一块苹果手表,目前这个项目...

    Zoom 评论0 收藏0
  • 大数据集群环境搭建——服务器篇

    摘要:接下来,本小白带大家一步步搭建一个大数据的分布式环境。本文为大数据集群环境搭建的第一篇,服务器搭建篇。配置免登录大数据集群中各个服务器间通信都需要使用免登录,具体操作请大家自行搜索,网上的资源非常丰富。 如今我们已经进入大数据时代,在校大学生及各个公司很多都开始学习大数据。那么要学习大数据,第一步就是要搭建分布式集群环境。虽说dreamtecher也是个刚学习大数据没多久的小白,但是也...

    linkin 评论0 收藏0
  • 大数据集群环境搭建——服务器篇

    摘要:接下来,本小白带大家一步步搭建一个大数据的分布式环境。本文为大数据集群环境搭建的第一篇,服务器搭建篇。配置免登录大数据集群中各个服务器间通信都需要使用免登录,具体操作请大家自行搜索,网上的资源非常丰富。 如今我们已经进入大数据时代,在校大学生及各个公司很多都开始学习大数据。那么要学习大数据,第一步就是要搭建分布式集群环境。虽说dreamtecher也是个刚学习大数据没多久的小白,但是也...

    blastz 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<