资讯专栏INFORMATION COLUMN

[HADOOP] Standby NN无法启动

android_c / 3174人阅读

摘要:如果两个都挂掉了,那就要做相对麻烦的操作了,而且相对对数据不安全以下是参考案例异常停止后无法正常启动

博客原文:hackershell

前段时间,standby的NN挂掉了,并且怎么起也起不来,如下日志:

2016-01-03 14:04:19,293 FATAL org.apache.hadoop.hdfs.server.namenode.ha.EditLogTailer: Unknown error encountered while tailing edits. Shutting down standby NN.
java.io.IOException: Failed to apply edit log operation ReassignLeaseOp [leaseHolder=DFSClient_NONMAPREDUCE_854707399_1, path=/tmp/jrdw/kafka2hdfs/log_mobile_gateway-21-1443245603647--6536501137915724876, newHolde
r=HDFS_NameNode, opCode=OP_REASSIGN_LEASE, txid=20790808505]: error File is not under construction: /tmp/jrdw/kafka2hdfs/log_mobile_gateway-21-1443245603647--6536501137915724876
       at org.apache.hadoop.hdfs.server.namenode.MetaRecoveryContext.editLogLoaderPrompt(MetaRecoveryContext.java:94)
       at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadEditRecords(FSEditLogLoader.java:205)
       at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadFSEdits(FSEditLogLoader.java:112)
       at org.apache.hadoop.hdfs.server.namenode.FSImage.loadEdits(FSImage.java:771)
       at org.apache.hadoop.hdfs.server.namenode.ha.EditLogTailer.doTailEdits(EditLogTailer.java:227)
       at org.apache.hadoop.hdfs.server.namenode.ha.EditLogTailer$EditLogTailerThread.doWork(EditLogTailer.java:321)
       at org.apache.hadoop.hdfs.server.namenode.ha.EditLogTailer$EditLogTailerThread.access$200(EditLogTailer.java:279)
       at org.apache.hadoop.hdfs.server.namenode.ha.EditLogTailer$EditLogTailerThread$1.run(EditLogTailer.java:296)
       at org.apache.hadoop.security.SecurityUtil.doAsLoginUserOrFatal(SecurityUtil.java:456)
       at org.apache.hadoop.hdfs.server.namenode.ha.EditLogTailer$EditLogTailerThread.run(EditLogTailer.java:292)

刚开始怀疑是不是editlog的下载有问题,后来发现editlog是可以解析出来的,但是不排除editlog的顺序存在bug

我们采取的方案是:

因为每次启动都需要加载editlog,所以为了跳过此操作,我们将Active进入安全模式,并进行saveNameSpace将dump出来的fsimage和txid拷贝到Standby NN上,重启就可以避免加载editlog了。

如果两个NN都挂掉了,那就要做相对麻烦的操作了,而且相对对数据不安全

以下是参考案例:

Namenode异常停止后无法正常启动

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/65400.html

相关文章

  • 2018年第22周-大数据的HDFS

    摘要:与大数据可以说是大数据的代名词。其实准确来说是家族是大数据的代名词,家族成员有等。于是通过网络管理多台机器存储的文件的系统,称为分布式文件系统。如文件系统的能够容忍节点故障且不丢失任何数据。 Hadoop与大数据 Hadoop可以说是大数据的代名词。 其实准确来说是Hadoop家族是大数据的代名词,家族成员有:Hadoop、Hive、Pig、HBase、Sqoop、Zookeeper...

    vspiders 评论0 收藏0
  • 大数据集群环境搭建——HDFS HA篇

    摘要:本次我们迎来了大数据集群环境搭建的第三篇篇。部署之前需要配置服务器和,不太会配置的同学们可以参考我之前的文章大数据集群环境搭建服务器篇和大数据集群环境搭建篇。用来进行两个节点的元数据同步。 本次我们迎来了《大数据集群环境搭建》的第三篇——HDFS HA篇。HDFS想必大家都不陌生,中文全称是Hadoop分布式文件系统(什么,你说中文全称里面为什么会有英语单词?反正Hadoop我是不知道...

    k00baa 评论0 收藏0
  • [HADOOP] 简单了解NameNode的ZKFC机制

    摘要:是如何实现的我们前面说到,是如何判断是否健康,接下来当处于非健康状态时,是如何进行切换的呢在这个类中,实行了两个重要的函数,一个叫,另一个叫,顾名思义就是选举和健康检查用的回调函数,其中还有两个重要的组成部分,,总体的就如上图所示。 博客原文:hackershell 之前在准备中级课程PPT,整理了下HA的基本内容,并且感谢松哥为我们提供了HA不会切的问题,以至于之后刚好出现的Name...

    ashe 评论0 收藏0
  • ZooKeeper安装、效果演示

    摘要:高可用一个开源的分布式的为分布式应用提供服务的项目提供原语集合以便分布式应用可以在它之上构建更高层次的同步服务角色观察者模式领导者负责进行投票的发起及决议更新状态学习者接受客户端请求并发挥客户端返回结果参与投票接受请求转发给不参与投票只 高可用(HA) -- ZooKeeper ZooKeeper 一个开源的分布式的,为分布式应用提供服务的项目 提供原语集合以便分布式应用可以在它之上...

    RyanHoo 评论0 收藏0
  • Hadoop2.6.0 HDFS HA+YARN 部署

    摘要:注意这里生成密钥建议在几台虚拟机克隆过后网络配置文件配置完成后施行,免密码登录这里直接影响最后格式化及节点启动是否成功,所以笔者在最后设置,检验完免密码登录后,启动格式化。 0.环境搭建准备 实体机Win7 64位 SSH Secure Shell Client Centos 6.5 版本 Hadoop 2.6.0 版本(编译后64位) OpenJdk1.7.0 注:jdk的安装方...

    Kross 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<