hadoop常见问题(2).no datanode to stop_浪啊哩咯浪

http://blog.sina.com.cn/u/1838362410

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

hadoop常见问题(2).no datanode to stop

(2013-01-28 15:03:27)

标签：

hadoop

datanode

问题

namespace

分类： hadoop

现象：当停止Hadoop的时候发现no datanode to stop的信息。

原因1：每次namenode format会重新创建一个namenodeId，而tmp/dfs/data下包含了上次format下的id，namenode format清空了namenode下的数据，但是没有清空datanode下的数据，导致启动时失败，所要做的就是每次fotmat前，清空tmp一下的所有目录。

这里有两种解决方案：

1）删除“/usr/hadoop/tmp”里面的内容

rm -rf /usr/hadoop/tmp/*

2）删除“/tmp”下以“hadoop”开头的文件

rm -rf /tmp/hadoop*

3）重新格式化hadoop

hadoop namenode -format

4）启动hadoop

start-all.sh

这种方案的缺点是原来集群上的重要数据全没有了。因此推荐第二种方案：

1）修改每个Slave的namespaceID，使其与Master的namespaceID一致。

或者

2）修改Master的namespaceID使其与Slave的namespaceID一致。

Master的“namespaceID”位于“/usr/hadoop/tmp/dfs/name/current/VERSION”文件里面，Slave的“namespaceID”位于“/usr/hadoop/tmp/dfs/data/current/VERSION”文件里面。

原因2：问题的原因是hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下，linux 默认会每隔一段时间（一般是一个月或者7天左右）去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop-hadoop-namenode.pid两个文件后，namenode自然就找不到datanode上的这两个进程了。

在配置文件hadoop_env.sh中配置export HADOOP_PID_DIR可以解决这个问题。

在配置文件中，HADOOP_PID_DIR的默认路径是“/var/hadoop/pids”，我们手动在“/var”目录下创建一个“hadoop”文件夹，若已存在就不用创建，记得用chown将权限分配给hadoop用户。然后在出错的Slave上杀死Datanode和Tasktracker的进程(kill -9 进程号)，再重新start-all.sh，stop-all.sh时发现没有“no datanode to stop”出现，说明问题已经解决。

参考：http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html

http://blog.sina.com.cn/s/blog_72827fb1010198j7.html

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：hadoop常见问题(1).Browse the filesystem链接打不开

后一篇：hadoop常见问题(3).too many fetch-failures

新浪BLOG意见反馈留言板　欢迎批评指正