Hadoop搭建集群的教程

更新时间：2022-07-12 11:04:49 来源：动力节点浏览815次

Hadoop搭建集群需要哪些步骤？动力节点小编来告诉大家。

使用VMvare创建两个虚拟机，我使用的是ubuntu16.04版本的,并关闭全部虚拟机的防火墙

1.因为默认的虚拟机主机名都是ubuntu，所以为了便于虚拟机的识别，创建完成虚拟机后我们对虚拟机名进行修改，我们把用于主节点的虚拟机名称设为master(按自己的喜好创建)，把用于从节点的虚拟机名称设为slave1

修改主机名的命令:sudo gedit /etc/hostname

把原主机名ubuntu改为master(在从主机上则改为slave1)

2.为了虚拟机之间能ping通，需要修改虚拟机的ip地址(这里以在master机器操作为例子，从节点的虚拟机也要进行一致的操作)

命令：sudo gedit /etc/hosts

把/etc/hosts中yangcx-virtual-machine修改为刚刚改过的主机名master，同时将前面的ip地址改为实际的ip地址

怎么知道自己虚拟机的ip地址

命令：ifconfig -a

上图红框标记的就是虚拟机的真实ip地址，因此我们把/etc/hosts中的内容修改为：

slave1的ip地址就是从虚拟机slave1的真实ip地址。同样，我们在slave1虚拟机上也要进行这一步操作。

3.关闭虚拟机的防火墙

一般来说，ubuntu默认都是安装防火墙软件ufw的，使用命令 sudo ufw version,如果出现ufw的版本信息，则说明已有ufw

使用命令 sudo ufw status查看防火墙开启状态：如果是active则说明开启，如果是inactive则说明关闭

开启/关闭防火墙 (默认设置是’disable’)

sudo ufw enable|disable

我们使用sudo ufw disble来关闭防火墙，并再次用sudo ufw status 查看防火墙是否关闭

安装jdk(所有虚拟机都要安装配置)

将jdk的压缩文件拖进master和slave1虚拟机中，压缩(右键文件，extract here)，或者用命令行

tar -zxvf jdk1.8.0_161.tar.gz(使用自己的压缩文件名)

jdk配置环境：

命令：sudo gedit /etc/profile

将jdk的路径添加到文件后面(根据自己的文件路径来，我这里jdk1.8.0_161文件夹的路径是/home/hadoop/java)

export JAVA_HOME=/home/hadoop/java/jdk1.8.0_161

export JRE_HOME=/home/hadoop/java/jdk1.8.0_161/jre

export CLASSPATH=.:J A V A _ H O M E / l i b : JAVA\_HOME/lib:JAVA_HOME/lib:JRE_HOME/lib:$CLASSPATH

export PATH=J A V A _ H O M E / b i n : JAVA\_HOME/bin:JAVA_HOME/bin:JRE_HOME/bin:J A V A _ H O M E : JAVA\_HOME:JAVA_HOME:PATH

保存退出，为了使配置立即生效，键入命令:source /etc/profile,或者重启虚拟机,命令：shutdown -r now

检查路径jdk是否安装成功，键入命令：java -version

如果出现了版本信息，则恭喜配置成功;

安装SSH服务

1.首先确保虚拟机能连上网

2.更新源列表：sudo apt-get update

3.安装ssh:输入"sudo apt-get install openssh-server"–>回车–>输入"y"–>回车–>安装完成。

4.查看ssh服务是否启动

打开"终端窗口"，输入"sudo ps -e |grep ssh"–>回车–>有sshd,说明ssh服务已经启动，如果没有启动，输入"sudo service ssh start"–>回车–>ssh服务就会启动。

建立ssh无密码登录本机

ssh生成密钥有rsa和dsa两种生成方式，默认情况下采用rsa方式。

1.创建ssh-key，，这里我们采用rsa方式

ssh-keygen-trsa-P"“//(P是要大写的，后面跟”")

2.进入~/.ssh/目录下，将id_rsa.pub追加到authorized_keys授权文件中，开始是没有authorized_keys文件的

cd~/.ssh

catid_rsa.pub>>authorized_keys

完成后就可以无密码登录本机了。

3.登录localhost

sshlocalhost

4.执行退出命令

exit?

1~4步在master和slave1两台虚拟机上都是配置

5.配置master无密码登陆slave1

mater主机中输入命令复制一份公钥到home中

cp .ssh/id_rsa.pub ~/id_rsa_master.pub

把master的home目录下的id_rsa_master.pub拷到slave1的home下(我的做法是先拖到windows桌面上，在拖进slave1虚拟机中)

slave1的home目录下分别输入命令

cat id_rsa_master.pub >> .ssh/authorized_keys

至此实现了mater对slave1的无密码登陆

以下的步骤只在master上进行(除了hadoop的环境变量

配置在slave1上也要进行)

安装hadoop

1.将hadoop压缩包拖进master虚拟机中，解压(我这里解压的路径是/home/hadoop/hadoop-2.7.3)

2.在hadoop-2.7.3文件夹里面先创建4个文件夹：

hadoop-2.7.3/hdfs

hadoop-2.7.3/hdfs/tmp

hadoop-2.7.3/hdfs/name

hadoop-2.7.3/hdfs/data

3.配置 hadoop的配置文件

先进入配置文件的路径：cd /home/hadoop/hadoop-2.7.3/etc/hadoop(再次强调，使用自己的路径)

输入：ls

查看该路径下的文件列表

被红框框住的文件是我们要进程配置的文件

1.首先配置core-site.xml文件

sudo gedit core-site.xml

在中加入以下代码：

<property>
   <name>hadoop.tmp.dir</name>
   <value>file:/home/hadoop/hadoop-2.7.3/hdfs/tmp</value>
   <description>A base for other temporary directories.</description>
 </property>
 <property>
  <name>io.file.buffer.size</name>
   <value>131072</value>
 </property>
 <property>
   <name>fs.defaultFS</name>
   <value>hdfs://master:9000</value>
 </property>

注意：第一个属性中的value和我们之前创建的/hadoop-2.7.3/hdfs/tmp路径要一致。

2.配置hadoop-env.sh文件

sudo gedit hadoop-env.sh

将JAVA_HOME文件配置为本机JAVA_HOME路径

3.配置 yarn-env.sh

sudo gedit yarn-env.sh

将其中的JAVA_HOME修改为本机JAVA_HOME路径(先把这一行的#去掉)

4.配置hdfs-site.xml

sudo gedit hdfs-site.xml

在中加入以下代码

<property>
 <name>dfs.replication</name>
   <value>1</value>
 </property>
 <property>
   <name>dfs.namenode.name.dir</name>
   <value>file:/home/hadoop/hadoop-2.7.3/hdfs/name</value>
   <final>true</final>
</property>
 <property>
   <name>dfs.datanode.data.dir</name>
   <value>file:/home/hadoop/hadoop-2.7.3/hdfs/data</value>
   <final>true</final>
 </property>
 <property>
  <name>dfs.namenode.secondary.http-address</name>
   <value>master:9001</value>
 </property>
 <property>
   <name>dfs.webhdfs.enabled</name>
   <value>true</value>
 </property>
 <property>
   <name>dfs.permissions</name>
   <value>false</value>
 </property>

注意(其中第二个dfs.namenode.name.dir和dfs.datanode.data.dir的value和之前创建的/hdfs/name和/hdfs/data路径一致;因为这里只有一个从主机slave1，所以dfs.replication设置为1)

5 .复制mapred-site.xml.template文件，并命名为mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

配置 mapred-site.xml,在标签中添加以下代码

<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>

6.配置yarn-site.xml

sudo gedit yarn-site.xml

在标签中添加以下代码

<property>
<name>yarn.resourcemanager.address</name>
<value>master:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:18030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:18088</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:18141</value>
</property>
<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

7.配置slaves文件

sudo gedit slaves

把原本的localhost删掉，改为slave1

8.配置hadoop的环境，就像配置jdk一样

sudo gedit /etc/profile

根据hadoop文件夹的路径配置，以我的路径/home/hadoop/hadoop-2.7.3 为例

export HADOOP_HOME=/home/hadoop/hadoop-2.7.3
export PATH="$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH"
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

键入命令 source /etc/profile 使配置立即生效

9.接下来，将hadoop传到slave1虚拟机上面去

scp -r hadoop-2.7.1 hadoop@slave1:~/

注意：hadoop是虚拟机的用户名，创建slave1时设定的

传过去后，在slave1上面同样对hadoop进行路径配置，和第8步一样

10.初始化hadoop

hdfs name -format

11.开启hadoop

两种方法：

start-all.sh

先start-dfs.sh,再start-yarn.sh

如果在mater上面键入jps后看到

在slave1上键入jps后看到

则说明集群搭建成功

最后用自带的样例测试hadoop集群能不能正常跑任务

使用命令

hadoop   jar   /home/hadoop/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar  pi 10 10

用来求圆周率，pi是类名，第一个10表示Map次数，第二个10表示随机生成点的次数(与计算原理有关)

最后出现结果

则，恭喜你，hadoop集群搭建完成。如果大家想了解更多相关知识，不妨来关注一下动力节点的Java视频教程，里面的课程内容从入门到精通，细致全面，通俗易懂，很适合没有基础的小伙伴学习，希望对大家能够有所帮助。

上一篇可跨域的SSO实现方案下一篇Zuul负载均衡配置

Hadoop搭建集群的教程

使用VMvare创建两个虚拟机，我使用的是ubuntu16.04版本的,并关闭全部虚拟机的防火墙

安装jdk(所有虚拟机都要安装配置)

安装SSH服务

建立ssh无密码登录本机

安装hadoop

最后用自带的样例测试hadoop集群能不能正常跑任务

JVM

多线程下载器项目实战

Java日志框架全集（选学）

高并发解决方案（选学）

零基础能学Java吗？

零基础能学Java吗？

零基础能学Java吗？

关于我们

课程中心

在线课程

资料广场

全国免费电话