当前位置:首页> 联盟新闻 >【每天学点技术应用】从零开始搭建Hadoop2.7.1的分布式集群

【每天学点技术应用】从零开始搭建Hadoop2.7.1的分布式集群

2021-05-14 20:54:22

Hadoop 2.7.1 (2015-7-6更新),Hadoop的环境配置不是特别的复杂,但是确实有很多细节需要注意,不然会造成许多配置错误的情况。尽量保证一次配置正确防止反复修改。

从零搭建Hadoop2.7.1的过程,以及搭建过程中所遇到的一些问题,一一为你解答。


一 操作环境说明


1.1   :操作系统: window8.1



1.2   :虚拟机版本:VMware12



二 材料准备


2.1 ubuntu-14.10-desktop-amd64.iso        (Ubuntu 光盘映像)

2.2 jdk-8u65-linux-x64.gz                     (Java 环境包)

2.3 hadoop-2.7.1.tar.gz                       (Hadoop 环境包)


三 搭建开始


3.1  Vmware 创建虚拟机


根据Hadoop的调度规则,我们将使用VMware 12 加载 ubuntu….iso来创建三个Ubuntu 虚拟机。创建用典型安装即可,以下是虚拟机的一些信息

虚拟机1:Master     Ubuntu 14.10 64bit  
虚拟机2:Slave1     Ubuntu 14.10 64bit  
虚拟机3:Slave2     Ubuntu 14.10 64bit

以下操作将需要在所有配置机器上进行

3.2  解压文件

将jdk-8u65-linux-x64.gz 和hadoop-2.7.1.tar.gz 拷贝到3台虚拟机的一个文件夹中。我这里拷贝到了Home/Download文件夹中, 然后右键选择 Extract Here. (当然也可以zxvf)

3.3 配置JAVA

把jdk-8u65-linux-x64 重命名为jdk-8u65-linux-x64.tar.gz 并右键Extract Here,生成文件jdk 1.8.0_65

打开终端输入命令:
sudo mkdir /usr/lib/jvm
  • 1


sudo cp -r Downloads/jdk1.8.0_65 /usr/lib/jvm/
  • 1

添加环境变量

sudo gedit /etc/profile
  • 1

在末尾加上四行:

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_65export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=${JAVA_HOME}/bin:$PATH
  • 1

  • 2

  • 3

  • 4

  • 5


输如命令使环境生效

source /etc/profile
  • 1

输如命令查看环境是否配置成功

java –version
  • 1

出现如上信息说明配置成功

3.4  SSH 安装以及配置

更新apt (由于是新系统可能会花一些时间)

sudo apt-get update
  • 1

安装ssh

sudo apt-get install openssh-server
  • 1

已有ssh或者安装成功了的输入命令

ps -e | grep ssh
  • 1


如果用的是和我相同的ubuntu版本安装会遇到问题。安装过程中遇到404 Not Find(如果没有则跳过直接验证SSH)


下载sources.list 存入Home目录下输入命令覆盖原文件

sudo cp sources.list /etc/apt/sources.list
  • 1

更行apt-get

sudo apt-get update
  • 1

再次安装ssh

sudo apt-get install openssh-server
  • 1

如遇到版本问题则参考以下命令安装

sudo apt-get install openssh-client=1:6.6p1-2ubuntu1
  • 1

验证SSH是否成功安装输入

ssh localhost
  • 1

出现以下提示说明安装成功


生成密钥Pair

ssh-keygen –t rsa
  • 1

输入后一直回车选择默认即可


mater主机中输入命令复制一份公钥到home中

cp .ssh/id_rsa.pub ~/id_rsa_master.pub
  • 1

把master的home目录下的id_rsa_master.pub拷到slave1,slave2的home下

slave1和 slave2的home目录下分别输入命令

cat id_rsa_master.pub >> .ssh/authorized_keys
  • 1

至此实现了mater对slave1, slave2的无密码登陆

以下配置将仅仅在master主机上进行
3.5 配置 Hadoop
(为了配置方便,将解压缩好的hadoop-2.7.1文件夹拷贝到home根目录下面)
在hadoop-2.7.1文件夹下创建文件,输入

mkdir hadoop-2.7.1/tmpmkdir hadoop-2.7.1/hdfsmkdir hadoop-2.7.1/hdfs/namemkdir hadoop-2.7.1/hdfs/data
  • 1

  • 2

  • 3

  • 4

输入命令查看ip地址  

ifconfig -a
  • 1


eg. 我所使用的IP地址

虚拟机1:Master   192.168.152.128
虚拟机2:Slave1   192.168.152.129
虚拟机3:Slave2   192.168.152.130
  • 1

  • 2

  • 3

  • 4

修改hosts  

sudo gedit /etc/hosts
  • 1

具体IP地址由上面给出,可根据自己的配置情况自行调整



为了方便修改hostname

sudo gedit /etc/hostname
  • 1

master 的改为 master
slave1 的改为 slave1  
slave2 的改为 slave2

修改环境变量  

cd ~/hadoop-2.7.1/
  • 1

(1)hadoop-env.sh

gedit etc/hadoop/hadoop-env.sh
  • 1

找到JAVA_HOME=… 一行修改为JAVA HOME的路径

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_65
  • 1

(2)core-site.xml

gedit etc/hadoop/core-site.xml
  • 1

在configuration标签中添加

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>

    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/zhaoli/hadoop-2.7.1/tmp</value>
    </property>
  • 1

  • 2

  • 3

  • 4

  • 5

  • 6

  • 7

  • 8

  • 9

  • 10

(3)mapred-site.xml

创建并编辑

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xmlgedit etc/hadoop/mapred-site.xml
  • 1

  • 2

  • 3

在configuration标签中添加

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>

    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/zhaoli/hadoop-2.7.1/tmp</value>
    </property>
  • 1

  • 2

  • 3

  • 4

  • 5

  • 6

  • 7

  • 8

  • 9

  • 10

(4)hdfs-site.xml

gedit etc/hadoop/hdfs-site.xml
  • 1

在configuration标签中添加

    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/zhaoli/hadoop-2.7.1/hdfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/zhaoli/hadoop-2.7.1/hdfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9001</value>
    </property>
  • 1

  • 2

  • 3

  • 4

  • 5

  • 6

  • 7

  • 8

  • 9

  • 10

  • 11

  • 12

  • 13

  • 14

  • 15

  • 16

  • 17

(5)yarn-site.xml

gedit etc/hadoop/yarn-site.xml
  • 1

在configuration标签中添加

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
  • 1

  • 2

  • 3

  • 4

  • 5

  • 6

  • 7

  • 8

  • 9

  • 10

  • 11

  • 12

  • 13

  • 14

  • 15

  • 16

  • 17

  • 18

  • 19

  • 20

  • 21

  • 22

  • 23

  • 24

  • 25

  • 26

  • 27

  • 28

  • 29

(6)slaves文件

gedit etc/hadoop/slaves
  • 1

删除原有内容,根据配置修改,此处为

slave1
slave2
  • 1

  • 2

  • 3

分发配置好的hadoop文件夹到slave1, slave2  

前提是设置好ssh

scp -r hadoop-2.7.1 zhaoli@slave1:~/ scp -r hadoop-2.7.1 zhaoli@slave2:~/
  • 1

  • 2

  • 3

格式化hdfs  
进入hadoop home目录

bin/hdfs namenode-format
  • 1

启动集群  

sbin/start-all.sh
  • 1

启动后分别在master, slave下输入jps查看进程



如上则说明启动成功

运行wordcount测试集群  

进入hadoop home目录
在hdfs(分布式文件系统)中创建一个名为input的文件夹

bin/hadoop fs –mkdir /input
  • 1

查看文件是否被创建

bin/hadoop fs –ls /
  • 1

hadoop home 下创建一个inputfile 文件夹,并在inputfile里创建两个文件

in1.txt

Hello world hello hadoop

in2.txt

Hello Hadoop hello whatever

上传两个文件进input

bin/hadoop fs -put inputfiles/*.txt /input
  • 1

查看输入文件是否传入

bin/hadoop fs -ls /input
  • 1


用hadoop jar命令运行Hadoop自带的wordcount

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output
  • 1


程序开始运行,成功后查看输出文件夹

bin/hadoop fs -ls /output
  • 1


查看结果

bin/hadoop fs -cat /output/part-r-00000
  • 1


至此hadoop分布式集群配置完成!






友情链接