资讯专栏INFORMATION COLUMN

HDFS常见问题之Datanode故障

IT那活儿 / 3662人阅读
HDFS常见问题之Datanode故障
[
一:HDFS结构
]


Namenode:用于管理文件系统的命名空间、目录结构、元数据信息以及提供备份机制;


DataNode:用于存储每个文件的“数据块”数据,并且会周期性地向NameNode报告该DataNode的数据存放情况;


JournalNode:用于同步主备NameNode之间的元数据信息;

Zookeeper:是一个协调服务,帮助ZKFC执行主NameNode的选举;

ZKFC:它负责监控NameNode的状态,并及时把状态写入Zookeeper;


[
二:HDFSHA集群
]


1.为了避免单点故障问题,HDFS一般采用HA集群的方式部署,典型的HDFSHA场景为主备两个NameNode方式运行,一个处于Active状态,另一个处于Standby状态,一旦主NameNode出现故障,可以迅速切换至备NameNode,从而不间断对外提供服务。


2.NameNode之间通过一组JournalNode同步元数据信息,实现Active和Standby两个NameNode的元数据信息同步。


[
三:HDFS原理
]


在HDFS内部,一个文件分成一个或多个“数据块”,这些“数据块”存储在DataNode集合里,NameNode负责保存和管理所有的HDFS元数据。客户端连接到NameNode,执行文件系统的“命名空间”操作,例如打开、关闭、重命名文件和目录,同时决定“数据块”到具体DataNode节点的映射。DataNode在NameNode的指挥下进行“数据块”的创建、删除和复制。客户端连接到DataNode,执行读写数据块操作。



[
四:HDFS数据节点硬盘故障案例
]


HDFS高可用集群中单数据节点datanode挂掉,不影响整个集群业务运行,更换硬盘属于高危操作,更换前需要将其他业务迁出。


1.收到hadoop数据节点Datanode进程停掉的告警信息。


2.登录集群管理节点,切换到故障节点,进入hadoop日志目录查看datanode日志详情,根据日志定位故障硬盘位置。


3.更换硬盘涉及风险,更换前应通知业务侧停掉主机业务进程,然后再做更换操作。该主机历史进程如下


4.停止业务进程

停止nodemanager(如有)

命令:yarn-daemon.shstop nodemanager

停止HRegionserver进程(业务集群使用graceful_stop.sh命令将region迁移到其他节点后停止regionserver)


命令:graceful_stop.shhadoop3(主机名)

查询region已迁移至节点2


停止journalnode进程

命令:hadoop-daemon.shstop journalnode

停止datanode进程

命令:hadoop-daemon.shstop  datanode

停止zookeeper进程(如有)

命令:zkServer.shstop


5.更换数据节点故障硬盘,挂载到原文件夹并修改权限


6.查询文件挂载及权限

查询文件夹权限

命令:ll/ |grep chunk09

查询hadoopHDFS配置文件中datanode参数

命令:morehdfs-site.xml


7.确认无误后启动进程

首先电话通知局方磁盘更换完成,现在要恢复进程

启动zookeeper进程(如有)

zkServer.shstart

启动datanode进程

命令:hadoop-daemon.shstart datanode

查询hadoopdatanode日志,读取到新盘所在chunk09


启动journalnode进程

命令:hadoop-daemon.shstart journalnode

启动regionserver进程

命令:hbase-daemon.shstart regionserver

注意:hbase请求量空闲的时候启动,特别是某些特殊的集群,如详单、计费、hbase集群均衡

进入页面检查hbase是否均衡,如果没均衡(如果均衡不用管),手动开启均衡

命令:echo“balance_switch true”|hbase shell

启动nodemanager

命令:yarn-daemon.shstart nodemanager


8.主机查询进程状态

登录HDFSUI查询Datanode

HbaseUI查询regionserver

参考:https://support.huawei.com/hedex/hdx.do?docid=EDOC1100020180&lang=zh&idPath=22658044%7C7919788%7C9856606%7C21110924

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/130073.html

相关文章

  • 2018年第22周-大数据的HDFS

    摘要:与大数据可以说是大数据的代名词。其实准确来说是家族是大数据的代名词,家族成员有等。于是通过网络管理多台机器存储的文件的系统,称为分布式文件系统。如文件系统的能够容忍节点故障且不丢失任何数据。 Hadoop与大数据 Hadoop可以说是大数据的代名词。 其实准确来说是Hadoop家族是大数据的代名词,家族成员有:Hadoop、Hive、Pig、HBase、Sqoop、Zookeeper...

    vspiders 评论0 收藏0
  • Facebook的Hadoop应用与故障转移方案

    摘要:当发生故障时,的两个高可用节点可手动故障转移。同时如果故障转移出现在写入的过程中,的机制将允许保证完整的数据写入。并整合与一般高可用性框架的整合,还将实现无人值守自动化与安全故障转移等特性。已将自身使用的与解决方案托管到。 在《数据大爆炸 一分钟=60秒=海量数据》一文中,我们曾提到在短短的60秒内,Facebook的用户会分享684478条信息,Like按钮被点击34772次。庞大的业务量...

    megatron 评论0 收藏0
  • Hadoop运维记录系列(二)

    摘要:宋体接收日志超过日,还在不断增加中。山东河南不愧是人口大省,各种片子基本都在前三名。宋体宋体运维和故障分析总结一遇到问题看日志,的日志记录很详细。 下周准备去某地做Hadoop相关的技术培训,主要负责讲解Hadoop的安装部署和运维部分,赶制了一份PPT,将平时工作中遇到的问题也提取了一下,希望能对Hadoop运维相关人员有所帮助,算是个补上的运维记录吧,错误数据均来自以前日常工作中的Had...

    zhangfaliang 评论0 收藏0
  • Hadoop分布式文件系统:架构和设计要点

    摘要:执行文件系统的操作,例如打开关闭重命名文件和目录,同时决定到具体节点的映射。对于任何对文件元数据产生修改的操作,都使用一个称为的事务日志记录下来。客户端软件实现了文件内容的校验和。 一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。3、HDFS以支持大数据集合为...

    Shonim 评论0 收藏0
  • #yyds干货盘点#HBase 调优详细剖析

    摘要:定时备份上的元数据,每小时或者每天备份,如果数据极其重要,可以分钟备份一次。为指定多个元数据目录,使用或者指定。这样可以提供元数据的冗余和健壮性,以免发生故障。设置上面两个参数时,需要考虑核数磁盘和内存容量。 1. 通用优化NameNode的元数据备份使用SSD。定时备份NameNode上的元数据,每小时或者每...

    Profeel 评论0 收藏0
  • Hadoop分布式文件系统:架构和设计要点

    摘要:执行文件系统的操作,例如打开关闭重命名文件和目录,同时决定到具体节点的映射。心跳包的接收表示该节点正常工作,而包括了该上所有的组成的列表。五文件系统元数据的持久化存储的元数据。     一、前提和设计目标   1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。   2、跑在HDF...

    Soarkey 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<