资讯专栏INFORMATION COLUMN

Hadoop分布式集群的搭建

leon / 1144人阅读

摘要:分布式集群的搭建关键词分布式集群环境搭建网络配置环境大数据大数据本文作者本文链接安装说明用到的软件软件版本下载地址节点安排名称主节点子节点子节点创建用户所有的节点均创建一个名为的用户,并添加管理员权限。后续的软件均可使用此方式配置。


title: Hadoop分布式集群的搭建
summary: 关键词: Hadoop ubuntu 分布式集群 环境搭建 ssh 网络配置 java环境
date: 2019-5-19 11:09
author: foochane
urlname: 2019051901
categories: 大数据
tags:

hadoop

大数据


</>复制代码

  1. 本文作者:foochane 
    本文链接:https://foochane.cn/article/2019051901.html
1 安装说明 1.1 用到的软件
软件 版本 下载地址
linux Ubuntu Server 18.04.2 LTS https://www.ubuntu.com/downlo...
hadoop hadoop-2.7.1 http://archive.apache.org/dis...
java jdk-8u211-linux-x64 https://www.oracle.com/techne...
1.2 节点安排
名称 ip hostname
主节点 192.168.233.200 Master
子节点1 192.168.233.201 Slave01
子节点2 192.168.233.202 Slave02
2 创建hadoop用户

所有的节点均创建一个名为hadoop的用户,并添加管理员权限。
注意:这里这是单纯为了方便管理,创建的用户名,也可以使用其他用户名,或者使用系统之前的用户,主要有管理员权限即可

</>复制代码

  1. $ sudo useradd -m hadoop -s /bin/bash #创建用户
  2. $ sudo passwd hadoop #修改密码
  3. $ sudo adduser hadoop sudo #添加管理员权限
3 配置网络环境 3.1 修改主机名

修改 /etc/hostname文件,每个节点都要修改。

主节点修改为:Master

从节点分别修改为:Slave01,Slave02,...

注意:如果是ubuntu18.04桌面版直接修改/etc/hostname文件即可,ubuntu18.04服务器版还需要修改/etc/cloud/cloud.cfg文件,修改如下:

</>复制代码

  1. # This will cause the set+update hostname module to not operate (if true)
  2. preserve_hostname: true #这里是将false改成true
3.2 添加IP与主机名的映射关系

/etc/hosts文件里添加如下内容(每个节点都要修改,根据实际情况修改ip)

</>复制代码

  1. 192.168.233.200 Master
  2. 192.168.233.201 Slave01
  3. 192.168.233.202 Slave02

检查各个节点是否能相互ping通。

3.3 设置SSH无密码登录节点

让Master能够通过SSH无密码登录各个Slave节点

如果修改过主机名,需要重新生成的新的公钥。

在Master上执行如下命令:

</>复制代码

  1. $ cd ~/.ssh # 如果没有该目录,先执行一次ssh localhost
  2. $ rm ./id_rsa* # 删除之前生成的公匙(如果已经存在)
  3. $ ssh-keygen -t rsa # 执行该命令后,遇到提示信息,一直按回车就可以
  4. $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

接着将Master中的id_rsa.pub文件复制到各个Slave节点中

</>复制代码

  1. $ scp ~/.ssh/id_rsa.pub hadoop@Slave01:/home/hadoop/
  2. $ scp ~/.ssh/id_rsa.pub hadoop@Slave02:/home/hadoop/

在各个Slave节点中执行如下命令:

</>复制代码

  1. $ mkdir ~/.ssh # 如果不存在该文件夹需先创建
  2. $ cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
  3. $ rm ~/id_rsa.pub # 用完以后就可以删掉

在Master中验证是否可以无密码登录,各个Slave节点。

如:

</>复制代码

  1. $ ssh Slave01 #如果成功登录,则配置完成
  2. $ ssh Slave02 #如果成功登录,则配置完成
4 安装java环境

每个节点都要安装,步骤相同
为了方便操作每个节点,默认在/usr/local/下新建一个名为bigdata的文件夹,存放所有的大数据相关的软件。

</>复制代码

  1. $ sudo mkdir /usr/local/bigdata
  2. $ sudo chown -R hadoop:hadoop /usr/local/bigdata/
4.1 解压

</>复制代码

  1. $ sudo mkdir /usr/local/bigdata/java
  2. $ sudo tar -zxvf jdk-8u211-linux-x64.tar.gz -C /usr/local/bigdata/java/
4.2 添加环境变量

~/.bashrc文件中添加如下内容,并执行$ source ~/.bashrc命令使其生效

</>复制代码

  1. #java
  2. export JAVA_HOME=/usr/local/bigdata/java/jdk1.8.0_211
  3. export JRE_HOME=$JAVA_HOME/jre
  4. export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
  5. export PATH=${JAVA_HOME}/bin:$PATH
5 解压hadoop

下载hadoop-2.7.1.tar.gz文件,并解压到/usr/local/bigdata/文件夹下

</>复制代码

  1. $ sudo tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local/bigdata
6 修改hadoop配置文件

需要修改6个文件,文件位于/usr/local/bigdata/hadoop-2.7.1/etc/hadoop/

6.1 slave 文件

将文件中原来的 localhost 删除,添加内容:

</>复制代码

  1. Slave01
  2. Slave02
6.2 core-site.xml 文件

内容修改为:

</>复制代码

  1. fs.defaultFS
  2. hdfs://Master:9000
  3. hadoop.tmp.dir
  4. file:/usr/local/bigdata/hadoop-2.7.1/tmp
  5. Abase for other temporary directories.
6.3 hdfs-site.xml文件

Hadoop的分布式文件系统HDFS一般采用冗余存储,一份文件通常保存3份副本,所以dfs.replication的值还是设置为3。
具体内容如下:

</>复制代码

  1. dfs.namenode.secondary.http-address
  2. Master:50090
  3. dfs.replication
  4. 3
  5. dfs.namenode.name.dir
  6. file:/usr/local/bigdata/hadoop-2.7.1/tmp/dfs/name
  7. dfs.datanode.data.dir
  8. file:/usr/local/bigdata/hadoop-2.7.1/tmp/dfs/data
6.4 mapred-site.xml 文件

修改内容如下:

</>复制代码

  1. mapreduce.framework.name
  2. yarn
  3. mapreduce.jobhistory.address
  4. Master:10020
  5. mapreduce.jobhistory.webapp.address
  6. Master:19888
6.5 yarn-site.xml文件

内容如下:

</>复制代码

  1. yarn.resourcemanager.hostname
  2. Master
  3. yarn.nodemanager.aux-services
  4. mapreduce_shuffle
6.6 hadoop-env.sh 文件

修改如下内容:

</>复制代码

  1. export JAVA_HOME=/usr/local/bigdata/java/jdk1.8.0_211
  2. # 可以不用
  3. export HADOOP_HOME=/usr/local/hadoop-2.7.1
7 设置hadoop环境变量

每个节点都要设置
~/.bashrc文件中添加如下内容,并$ source ~/.bashrc使其生效

</>复制代码

  1. export PATH=$PATH:/usr/local/bigdata/hadoop-2.7.1/bin:/usr/local/bigdata/hadoop-2.7.1/sbin
8 slave节点配置

slave节点只需将master节点上/usr/local/下的bigdata文件夹和~/.bashrc文件,放到slave节点即可
注意切换到对应机器执行$ source ~/.bashrc使环境变量生效。

后续的软件均可使用此方式配置。

在master节点:

</>复制代码

  1. $ sudo rm -r /usr/local/bigdata/hadoop-2.7.1/tmp # 删除 Hadoop 临时文件,如果之前有启动过
  2. $ sudo rm -r /usr/local/bigdata/hadoop-2.7.1/logs/* # 删除日志文件,如果之前有启动过
  3. $ tar -zcvf ~/bigdata.tar.gz /usr/local/bigdata/ # 先压缩再复制
  4. $ scp ~/bigdata.tar.gz Slave01:/home/hadoop
  5. $ scp ~/bigdata.tar.gz Slave02:/home/hadoop
  6. $ scp ~/bashrc Slave01:/home/hadoop
  7. $ scp ~/bashrc Slave02:/home/hadoop

在各个slave节点上

</>复制代码

  1. $ sudo mkdir /usr/local/bigdata
  2. $ sudo chown -R hadoop:hadoop /usr/local/bigdata
  3. $ tar -zxvf ~/bigdata.tar.gz -C /usr/local/bigdata
  4. $ sudo source ~/.bashrc
9 启动Hadoop集群

在Master上执行
首次运行需要,执行

</>复制代码

  1. $ hdfs namenode -format

格式化名称节点,然后就可以启动hadoop了。

启动hadoop:

</>复制代码

  1. $ start-dfs.sh
  2. $ start-yarn.sh
  3. $ mr-jobhistory-daemon.sh start historyserver

使用jps查看启动的各个节点,缺少任何进程,都表示出错。

</>复制代码

  1. $ jps
  2. 3585 JobHistoryServer
  3. 2938 NameNode
  4. 3148 SecondaryNameNode
  5. 3308 ResourceManager
  6. 3629 Jps

浏览器查看:http://192.168.233.200:50070/

查看相关信息:$ hdfs dfsadmin -report

关闭hadoop:

</>复制代码

  1. $ stop-yarn.sh
  2. $ stop-dfs.sh
  3. $ mr-jobhistory-daemon.sh stop historyserver

如果有问题,重复如下命令:

</>复制代码

  1. $ stop-dfs.sh # 关闭
  2. $ rm -r /usr/local/bigdata/hadoop-2.7.1/tmp # 删除 tmp 文件,注意这会删除 HDFS中原有的所有数据
  3. $ hdfs namenode -format # 重新格式化名称节点
  4. $ start-dfs.sh # 重启

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/36035.html

相关文章

  • hadoop集群管理系统搭建规划说明

    摘要:集群管理系统搭建规划说明分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么原因无法创建成功。也是如此,它负责管理集群中的资源和任务调度,你也可以把它视为大数据操作系统。 hadoop集群管理系统搭建规划说明Hadoop分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么...

    ThreeWords 评论0 收藏0
  • 基于Docker搭建Hadoop集群之升级版

    摘要:总之,项目还算很受欢迎吧,这篇博客将介绍项目的升级版。一项目介绍将打包到镜像中,就可以快速地在单个机器上搭建集群,这样可以方便新手测试和学习。之前的版本使用为集群提供服务,由于网络功能更新,现在并不需要了。运行参考第二部分启动,并运行。 摘要: kiwenlau/hadoop-cluster-docker是去年参加Docker巨好玩比赛开发的,得了二等奖并赢了一块苹果手表,目前这个项目...

    Zoom 评论0 收藏0

发表评论

0条评论

leon

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<