加载中…
个人资料
CDA数据分析师_人大经济论坛
CDA数据分析师_人
大经济论坛
  • 博客等级:
  • 博客积分:0
  • 博客访问:35,784
  • 关注人气:10
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

hadoop:伪分布模式启动步骤分解!

(2020-05-27 09:36:49)
标签:

hadoop

分类: 大数据时代·咨询热点

1、格式化HDFS

在运行伪分布式前,需先对NameNode进行格式化,在命令行中输入

hdfs namenode -format          # 格式化hdfs

若出现successfully formatted字样,则说明格式化成功

hadoop:伪分布模式启动步骤分解!

2、启动hadoop

然后启动hadoop集群

start-all.sh # 一次性启动所有服务

或使用以下命令单独启动各项服务

start-dfs.sh      #启动hdfs
start-yarn.sh     #启动mapreduce框架yarn

利用jps命令查看是否启动成功,如果出现下述进程,则证明启动成功

Jps

运行后显示有如下进程。

hadoop:伪分布模式启动步骤分解!

启动完成后,我们可使用Web端口检测集群运行情况,建议使用360或Chrome浏览器。

查看ResourceManager Web界面:

打开主机浏览器,然后输入下述网址:http://192.168.1.618:8088, 在该界面我们能查看集群任务运行情况

hadoop:伪分布模式启动步骤分解!

NameNode HDFS Web界面

打开主机浏览器,然后输入下述网址:http://192.168.152.128:50070,在该界面我们能查看集群hdfs基本运行情况

hadoop:伪分布模式启动步骤分解!

3、 测试运行

接下来,我们仍以grep为例测试其在伪分布式上运行情况。和单机模式不同,伪分布式运行时默认读取hdfs上文件,同时也会将输出结果保存在hdfs上,因此我们要提前在hdfs上创建文件夹,更多关于hdfs的操作会在下文介绍

3.1、HDFS基本操作指令

由于伪分布式运行时,数据从HDFS上进行读取,在上传数据至HDFS之前,我们需要在HDFS中创建用户目录。

hdfs dfs -mkdir -p /user/hduser

接着,我们选取hadoop配置文件夹中的xml文件作为输入文件复制到HDFS系统中。 

hdfs dfs -mkdir input
cd ~/hadoop
hdfs dfs -put ./etc/hadoop/*.xml input

查看HDFS中文件

hdfs dfs -ls input

3.2、运行grep例子

伪分布式运行 MapReduce 作业的方式跟单机模式相同,只是读取文件和输出文件保存均在HDFS中。

hadoop:伪分布模式启动步骤分解!

运行过程中可在8088端口查看mapreduce任务运行情况

hadoop:伪分布模式启动步骤分解!

运行完成后如下所示

hadoop:伪分布模式启动步骤分解!

查看保存在HDFS中的运行结果

hdfs dfs -cat output/*
hadoop:伪分布模式启动步骤分解!

当然,我们也可进一步将结果取回本地

cd ~/hadoop
rm -r ./output # 先删除本地的 output 文件夹(如果存在)
hdfs dfs -get output ./output # 将 HDFS 上的 output 文件夹拷贝到本机
cat ./output/*  #查看所有文件

到这里hadoop伪分布的安装启动就介绍完成了。伪分布的优点是在一台计算机上也可以使用Hadoop命令;缺点也是显而易见的发挥不了Hadoop设计初衷--分布式存储与分布式计算。

 

在下文中我将给大家介绍多节点的分布式集群搭建教程。

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有