百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

0526-6.1-如果你不小心删了一个NameNode1

ztj100 2024-11-07 13:39 22 浏览 0 评论

1.文档编写目的


在启用了HDFS HA的集群,2个NameNode节点上一般都会部署三个角色:NameNode,JournalNode和Failover Controller。在实际生产中,我们有时会碰到一个情况,你不小心删掉了某个NameNode节点上的所有角色包括NameNode,JournalNode和Failover Controller,或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点,然后你想再把这个节点加回去的时候,发现无论如何HDFS服务都没办法正常使用了。本文Fayson会在一个HDFS HA的CDH集群中模拟这种情况,然后尝试去解决,即先删除一个NameNode,然后如何通过配置将该NameNode重新加回到HDFS服务中。

  • 测试环境

1.CDH6.1

2.Redhat7.4

3.采用root进行操作

2.模拟异常


1.首先Fayson准备一个正常的CDH6.1的集群,并且HDFS已经启用了HA。




2.我们停止ip-172-31-9-113.ap-southeast-1.compute.internal节点上的NameNode,JournalNode和Failover Controller服务。



3.删除这三个角色,注意下表已经少了这三个角色。




4.这是HDFS服务直接报错了。

3 个验证错误。
 Quorum Journal 需要至少三个 JournalNode
 Quorum Journal 需要奇数的 JournalNode
 Nameservice nameservice1 has no SecondaryNameNode or High-Availability partner
1 个验证警告。
 在 NameNode (ip-172-31-6-83) 个非 HA Nameservice nameservice1 上启用自动故障转移不起作用。





3.故障修复方法1


1.我们选择HDFS服务,然后点击“操作”,发现虽然是HDFS HA的集群,操作列表显示却是“启用High Availability”,实际应该是“禁用High Availability”,应该是因为手动删除了一个NameNode后引起的。




2.我们先尝试点击该按钮,尝试重新启用HDFS的HA。



这里我们选择之前的删掉的NameNode和JournalNode节点

ip-172-31-9-113.ap-southeast-1.compute.internal




报错,启用失败,实际其实我们已经选择了三个JournalNode,但仍旧报错需要3个JournalNode,返回,我们继续尝试。

4.故障修复方法2


1.从以下界面把删掉的NameNode,JournalNode和Failover Controller的三个角色再给加回去。




2.点击添加角色实例,并相应的选择之前删掉NameNode,JournalNode和Failover Controller角色所在的主机ip-172-31-9-113.ap-southeast-1.compute.internal



3.点击“继续”




4.点击“完成”




5.直接重启HDFS服务,尝试拉起刚刚新加的三个角色




还是失败。

6.进入ip-172-31-9-113.ap-southeast-1.compute.internal节点所在的NameNode配置页面。




选择“配置”标签页




在“NameNode Nameservice”配置项中输入nameservice1,这里根据你集群启用HA后的实际情况nameservice的名字输入,然后保存。




7.在“Quorum Journal 名称”配置项也输入nameservice1,这里根据你集群启用HA后的实际情况nameservice的名字输入,然后保存。




8.勾选“启用自动故障转移”,然后保存。




9.回到HDFS服务的实例页面,发现之前的错误已经消失了。




10.回到CM主页重新部署客户端,并重启集群所有服务。





重启成功,集群恢复正常。




11.HDFS验证,一切正常。



相关推荐

Jquery 详细用法

1、jQuery介绍(1)jQuery是什么?是一个js框架,其主要思想是利用jQuery提供的选择器查找要操作的节点,然后将找到的节点封装成一个jQuery对象。封装成jQuery对象的目的有...

前端开发79条知识点汇总

1.css禁用鼠标事件2.get/post的理解和他们之间的区别http超文本传输协议(HTTP)的设计目的是保证客户机与服务器之间的通信。HTTP的工作方式是客户机与服务器之间的请求-应答协议。...

js基础面试题92-130道题目

92.说说你对作用域链的理解参考答案:作用域链的作用是保证执行环境里有权访问的变量和函数是有序的,作用域链的变量只能向上访问,变量访问到window对象即被终止,作用域链向下访问变量是不被允许的。...

Web前端必备基础知识点,百万网友:牛逼

1、Web中的常见攻击方式1.SQL注入------常见的安全性问题。解决方案:前端页面需要校验用户的输入数据(限制用户输入的类型、范围、格式、长度),不能只靠后端去校验用户数据。一来可以提高后端处理...

事件——《JS高级程序设计》

一、事件流1.事件流描述的是从页面中接收事件的顺序2.事件冒泡(eventbubble):事件从开始时由最具体的元素(就是嵌套最深的那个节点)开始,逐级向上传播到较为不具体的节点(就是Docu...

前端开发中79条不可忽视的知识点汇总

过往一些不足的地方,通过博客,好好总结一下。1.css禁用鼠标事件...

Chrome 开发工具之Network

经常会听到比如"为什么我的js代码没执行啊?","我明明发送了请求,为什么反应?","我这个网站怎么加载的这么慢?"这类的问题,那么问题既然存在,就需要去解决它,需要解决它,首先我们得找对导致问题的原...

轻量级 React.js 虚拟美化滚动条组件RScroll

前几天有给大家分享一个Vue自定义滚动条组件VScroll。今天再分享一个最新开发的ReactPC端模拟滚动条组件RScroll。...

一文解读JavaScript事件对象和表单对象

前言相信做网站对JavaScript再熟悉不过了,它是一门脚本语言,不同于Python的是,它是一门浏览器脚本语言,而Python则是服务器脚本语言,我们不光要会Python,还要会JavaScrip...

Python函数参数黑科技:*args与**kwargs深度解析

90%的Python程序员不知道,可变参数设计竟能决定函数的灵活性和扩展性!掌握这些技巧,让你的函数适应任何场景!一、函数参数设计的三大进阶技巧...

深入理解Python3密码学:详解PyCrypto库加密、解密与数字签名

在现代计算领域,信息安全逐渐成为焦点话题。密码学,作为信息保护的关键技术之一,允许我们加密(保密)和解密(解密)数据。...

阿里Nacos惊爆安全漏洞,火速升级!(附修复建议)

前言好,我是threedr3am,我发现nacos最新版本1.4.1对于User-Agent绕过安全漏洞的serverIdentitykey-value修复机制,依然存在绕过问题,在nacos开启了...

Python模块:zoneinfo时区支持详解

一、知识导图二、知识讲解(一)zoneinfo模块概述...

Golang开发的一些注意事项(一)

1.channel关闭后读的问题当channel关闭之后再去读取它,虽然不会引发panic,但会直接得到零值,而且ok的值为false。packagemainimport"...

Python鼠标与键盘自动化指南:从入门到进阶——键盘篇

`pynput`是一个用于控制和监控鼠标和键盘的Python库...

取消回复欢迎 发表评论: