HDFS常见问题之Datanode故障

IT那活儿发布于2023-01-11 13:20 / 4490人阅读

HDFS常见问题之Datanode故障

[

一：HDFS结构

]

Namenode：用于管理文件系统的命名空间、目录结构、元数据信息以及提供备份机制；

DataNode：用于存储每个文件的“数据块”数据，并且会周期性地向NameNode报告该DataNode的数据存放情况；

JournalNode：用于同步主备NameNode之间的元数据信息；

Zookeeper:是一个协调服务，帮助ZKFC执行主NameNode的选举；

ZKFC:它负责监控NameNode的状态，并及时把状态写入Zookeeper；

[

二：HDFSHA集群

]

1.为了避免单点故障问题，HDFS一般采用HA集群的方式部署，典型的HDFSHA场景为主备两个NameNode方式运行，一个处于Active状态，另一个处于Standby状态，一旦主NameNode出现故障，可以迅速切换至备NameNode，从而不间断对外提供服务。

2.NameNode之间通过一组JournalNode同步元数据信息，实现Active和Standby两个NameNode的元数据信息同步。

[

三：HDFS原理

]

在HDFS内部，一个文件分成一个或多个“数据块”，这些“数据块”存储在DataNode集合里，NameNode负责保存和管理所有的HDFS元数据。客户端连接到NameNode，执行文件系统的“命名空间”操作，例如打开、关闭、重命名文件和目录，同时决定“数据块”到具体DataNode节点的映射。DataNode在NameNode的指挥下进行“数据块”的创建、删除和复制。客户端连接到DataNode，执行读写数据块操作。

[

四：HDFS数据节点硬盘故障案例

]

HDFS高可用集群中单数据节点datanode挂掉，不影响整个集群业务运行，更换硬盘属于高危操作，更换前需要将其他业务迁出。

1.收到hadoop数据节点Datanode进程停掉的告警信息。

2.登录集群管理节点，切换到故障节点，进入hadoop日志目录查看datanode日志详情，根据日志定位故障硬盘位置。

3.更换硬盘涉及风险，更换前应通知业务侧停掉主机业务进程，然后再做更换操作。该主机历史进程如下

4.停止业务进程

停止nodemanager（如有）

命令：yarn-daemon.shstop nodemanager

停止HRegionserver进程（业务集群使用graceful_stop.sh命令将region迁移到其他节点后停止regionserver）

命令：graceful_stop.shhadoop3(主机名)

查询region已迁移至节点2

停止journalnode进程

命令：hadoop-daemon.shstop journalnode

停止datanode进程

命令：hadoop-daemon.shstop datanode

停止zookeeper进程(如有)

命令：zkServer.shstop

5.更换数据节点故障硬盘，挂载到原文件夹并修改权限

6.查询文件挂载及权限

查询文件夹权限

命令：ll/ |grep chunk09

查询hadoopHDFS配置文件中datanode参数

命令：morehdfs-site.xml

7.确认无误后启动进程

首先电话通知局方磁盘更换完成，现在要恢复进程

启动zookeeper进程(如有)

zkServer.shstart

启动datanode进程

命令：hadoop-daemon.shstart datanode

查询hadoopdatanode日志,读取到新盘所在chunk09

启动journalnode进程

命令：hadoop-daemon.shstart journalnode

启动regionserver进程

命令：hbase-daemon.shstart regionserver

注意：hbase请求量空闲的时候启动，特别是某些特殊的集群，如详单、计费、hbase集群均衡

进入页面检查hbase是否均衡，如果没均衡（如果均衡不用管），手动开启均衡

命令：echo“balance_switch true”|hbase shell

启动nodemanager

命令：yarn-daemon.shstart nodemanager

8.主机查询进程状态

登录HDFSUI查询Datanode

HbaseUI查询regionserver

参考：https://support.huawei.com/hedex/hdx.do?docid=EDOC1100020180&lang=zh&idPath=22658044%7C7919788%7C9856606%7C21110924

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

GPU云服务器云服务器 flume到hdfs写入问题常见故障服务器常见故障 linux常见故障码

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/130073.html

发表评论

登陆后可评论

0条评论

IT那活儿

男|高级讲师

我要关注我要私信

TA的文章

消息中间件故障分析一例

阅读 1487·2023-01-11 13:20
RAC双节点crash回复一例

阅读 1841·2023-01-11 13:20
ORA-600处理一例

阅读 1285·2023-01-11 13:20
双节点RAC实例2 HANG 故障分析一例

阅读 2030·2023-01-11 13:20
RAC集群节点1重启分析一例

阅读 4238·2023-01-11 13:20
CRS启动报错CRS-1656处理分享

阅读 2921·2023-01-11 13:20
oracle 12CR2打补丁报错处理一例

阅读 1576·2023-01-11 13:20
分布式缓存组件故障分析及监控优化

阅读 3840·2023-01-11 13:20

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

HDFS常见问题之Datanode故障

相关文章

发表评论

0条评论

IT那活儿

男|高级讲师

TA的文章

消息中间件故障分析一例

RAC双节点crash回复一例

ORA-600处理一例

双节点RAC实例2 HANG 故障分析一例

RAC集群节点1重启分析一例

CRS启动报错CRS-1656处理分享

oracle 12CR2打补丁报错处理一例

分布式缓存组件故障分析及监控优化

最新活动