虚拟机安装的三台Ubuntu系统下搭建Hadoop
(2011-05-03 01:08:58)
标签:
hadoopubuntuit |
分类: 挨踢 |
在虚拟机中安装的Ubuntu系统下搭建Hadoop集群时首先要解决的问题是将宿主机的文件拷贝到虚拟机上。采用的简单方法是宿主机使用Serv-U建立一个FTP然后在虚拟机上登录将文件拷出来。
要先熟悉Linux的基本概念和操作,如:cd、ls、tar、cat、ssh、scp、cp、rm、sudo、su、apt-get等操作。
一.实践环境:
Ubuntu10.04+jdk1.6+hadoop-0.20.1
机器名 |
IP |
作用 |
Master |
192.168.128.2 |
Namenode、master、jobtracker |
Slave1 |
192.168.128.3 |
Datanode、slave、tasktracker |
Slave2 |
192.168.128.4 |
Datanode、slave、tasktracker |
二.
1.
2.
3.
IP为
IP为
$
vi
进入文件后将机器名改成master
$
vi
进入文件后机器名改成
$
vi
第二步:修改三台虚拟机的/etc/hosts文件。
vi
进入文件后原内容删除加入如下内容。
4.在三台虚拟机上分别新建一个名字为jsj的用户。
第一步:root@master:~$ adduser jsj
第二步:提示你要求你填写一些信息,可以直接回车。
第三步:设置jsj这个用户的密码(尽量简单一致)。
第四步:root@master:~/home$
//将jsj文件夹的所用者改成jsj用户的。否则我们用adduser jsj创建了jsj用户后,jsj用户不能在自己的主目录下创建文件夹,(如:$ mkdir .ssh)提示没有权限创建文件夹。
5.
第一步:root@master:~$ sudo
apt-get install
ssh
第二步:jsj@master:~$
在三台虚拟机的/home/jsj目录下都用jsj用户建立一个.ssh目录
第三步:jsj@master:~/.ssh/$
//这个命令将为masters上的jsj用户生成其密钥对,生成的密钥对id_dsa,id_dsa.pub,默认存储在/home/jsj/.ssh目录下。
第四步:jsj@master:~/.ssh/$
//把id_dsa.pub
第五步:jsj@master:~/.ssh/$
scp
//将id_dsa.pub
第六步:到slave1
至此各个机器上的SSH配置已经完成,可以测试一下了,比如master向slave1发起ssh连接
jsj@mater:~/.ssh$
ssh
如果ssh配置好了,就会出现以下提示信息
The authenticity of host [dbrg-2] can't be
established.
Key fingerprint is 1024
5f:a0:0b:65:d3:82:df:ab:44:62:6d:98:9c:fe:e9:52.
Are you sure you want to continue connecting (yes/no)?
OpenSSH告诉你它不知道这台主机,但是你不用担心这个问题,因为你是第一次登录这台主机。键入“yes”。这将把这台主机的“识别标记”加到“~/.ssh/know_hosts”文件中。第二次访问这台主机的时候你会发现不需要输入密码就可以建立ssh连接了,恭喜你,配置成功了。不过,别忘了测试本机ssh
6.
第一步:将jdk-6u13-linux-i586.bin拷到/home/jsj目录下
第二步:root@master:~/home/jsj$ chmod u+x jdk-6u13-linux-i586.bin
//将bin文件修改成可执行文件。
第三步:root@master:~/home/jsj/$ ./jdk-6u13-linux-i586.bin
//运行安装文件
第四步:root@master:~/$ gedit /etc/profile
在文件里面加入如下信息。
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
然后root@master:~/$ source
/etc/profile
第五步:重启电脑,在任何用户中
java version "1.6.0_13"
Java(TM) SE Runtime Environment (build 1.6.0_04-b12)
Java HotSpot(TM) Client VM (build 10.0-b19, mixed mode, sharing)
说明jdk安装成功。你可以在slave1和slave2
scp
–r
7.
第二步:root@master:~/home/jsj/$ tar -xzvf hadoop-0.20.1.tar.gz
//将文件解压。
第三步:root@master:~/home/jsj/$
chown
//将文件所有者改成jsj。
第四步:root@master:~/home/jsj/$ gedit /etc/profile
进入文件将如下信息加到文件里。
export HADOOP_HOME=/home/jsj/hadoop-0.20.1
export PATH=$HADOOP_HOME/bin:$PATH
第五步:更改conf目录下的conf/core-site.xml, conf/hdfs-site.xml,
conf/mapred-site.xml,conf/hadoop-env.sh,conf/masters,conf/slaves
root@master:~/home/jsj/hadoop-0.20.1/conf/$ gedit hadoop-env.sh
进入文件加入如下信息。
export
root@master:~/home/jsj/hadoop-0.20.1/conf/$ gedit masters
进入文件加入如下信息。
192.168.128.2
root@master:~/home/jsj/hadoop-0.20.1/conf/$ gedit slaves
进入文件加入如下信息。
192.168.128.3
192.168.128.4
root@master:~/home/jsj/hadoop-0.20.1/conf/$ gedit
core-site.xml
进入文件加入如下信息。
<configuration>
</property>
<!-- file system properties -->
<property>
</property>
</configuration>
root@master:~/home/jsj/hadoop-0.20.1/conf/$ gedit hdfs-site.xml
进入文件加入如下信息。(replication默认是3,如果不修改,datanode少于三台就会报错)。
<configuration>
</configuration>
root@master:~/home/jsj/hadoop-0.20.1/conf/$ gedit mapred-site.xml
进入文件加入如下信息。
<configuration>
<property>
</property>
</configuration>
//将文件hadoop-0.20.1拷贝到其它两个虚拟机上就可以了。
8.运行hadoop自带的例程
第一步:jsj@master:~/hadoop-0.20.1/bin/$ hadoop namenode –format
//格式化文件系统,新建一个文件系统。
第二步:jsj@master:~/hadoop-0.20.1/$ start-all.sh
//启动hadoop的所有守护进程。
第四步:jsj@master:~/hadoop-0.20.1/$
jps
//查看进程,master虚拟机上的结果。
在slave1
第五步:jsj@master:~/soft/$
echo
jsj@master:~/soft/$
echo
//在本地磁盘建立两个输入文件file01
第六步:jsj@master:~/hadoop-0.20.1/$
//在hdfs
第七步:jsj@master:~/hadoop-0.20.1/$
//将file01
第八步:jsj@master:~/hadoop-0.20.1/$
//执行wordcount。
第九步:jsj@master:~/hadoop-0.20.1/$
//完成之后,查看结果:
Bye 1
Goodbye 1
Hadoop 2
Hello 2
World 2
至此hadoop运行环境已经全部搭建完成。如果要按照此方法搭建请注意每次运行命令的用户和路径。这次搭建过程中还存留的一个问题就是/etc/profile