hadoop3集群部署方法

发表者：admin分类：大数据2021-11-12 10:37:35 阅读[1264]

文章目录

1. linux ssh免密登陆配置

hadoop节点之间的通讯是通过ssh进行的，SSH默认都是需要密码的，开启免密钥登录会减少很多麻烦。操作很简单，两步（三步）就可以完成。

首先在本地生成公钥和私钥。分别在所有节点上执行：

ssh-keygen -t rsa

#后面都按回车跳过即可（三次）
# 运行结束后在 ~/.ssh/下生成两个新文件: id_rsa.pub和id_rsa

设置本机ssh免密
#cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

将公钥拷贝到本机和远程主机.

ssh-copy-id username@host 
or
ssh-copy-id node01
ssh-copy-id node02
……
# username是用户名  host是主机的地址
#远程主机将用户的公钥保存在 ~/.ssh/authorized_keys文件中

如果发现. Agent admitted failure to sign using the key 这个错误，还要输入密码，是ssh本身的问题.

可以使用命令：

ssh-add   ~/.ssh/id_rsa  把私钥加进来即可

测试能否免密登陆：

[root@node01 /]# ssh node02
[root@node02 ~]#

免密登陆设置成功。

2. java环境配置

vi /etc/profile

在profile文件末尾加入： 
export JAVA_HOME=/usr/share/jdk1.6.0_14 
export PATH=$JAVA_HOME/bin:$PATH 
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

3. Hadoop完全分布式(full)

理论

并行：提升速度的关键
分布式运行
计算与数据在一起——计算向数据移动

Hadoop简介：

分布式存储系统HDFS （Hadoop Distributed File System ）
分布式存储系统
提供了高可靠性、高扩展性和高吞吐率的数据存储服务
分布式计算框架MapReduce
分布式计算框架（计算向数据移动）
具有易于编程、高容错性和高扩展性等优点。
分布式资源管理框架YARN（Yet Another Resource Management）
负责集群资源的管理和调度

本文搭建了4虚拟机部署hadoop，可根据实际机器性能指定，搭建3台也可以，只需修改下配置即可。

修改4台虚拟机的hosts文件

vi /etc/hosts
加入如下：
192.168.33.101 node01
192.168.33.102 node02
192.168.33.103 node03
192.168.33.104 node04

节点	配置
node01	namenode
node02	secondarynamenode、datanode
node03	datanode
node04	datanode

进入node01主机，安装配置hadoop：

将hadoop解压到/opt/目录下
tar -zxvf hadoop-3.1.1.tar.gz -C /opt/

然后进入/opt/目录，删掉doc文件夹
cd /opt/hadoop-3.1.1/
rm -rf share/doc

修改hadoop配置

cd $HADOOP_HOME/etc/hadoop
vi + hadoop-env.sh
在末尾加入：
export JAVA_HOME=/usr/share/jdk8
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root

vi + core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://node01:9820</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/aaron/hadoop/full</value>
    </property>
</configuration>

vi + hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node02:9868</value>
    </property>
</configuration>

vi workers
删掉localhost，加入：
node02
node03
node04

再把修改配置后的hadoop分发到其他节点的相同目录下

scp /opt/hadoop-3.1.1 node02:`pwd`
scp /opt/hadoop-3.1.1 node03:`pwd`
scp /opt/hadoop-3.1.1 node04:`pwd`

启动

先在主节点namenode里进行格式化
~/sbin/hdfs namenode -format

格式化完成后再启动hadoop hdfs
~/sbin/start-dfs.sh

查看启动是否成功，分别在各个节点执行：
jps

4. Hadoop HDFS高可用集群搭建（HA）

hostname	NN-1	NN-2	DN	ZK	ZKFC	JNN
node01	*				*	*
node02		*	*	*	*	*
node03			*	*		*
node04			*	*

4.1 安装配置zookeeper

进入主机node02，将zookeeper解压到/opt/目录下

tar -zxvf zookeeper-3.4.6.tar.gz -C /opt/

修改zookeeper配置文件
cd conf/
cp zoo_sample.cfg zoo.cfg
vi + zoo.cfg
修改：
dataDir=/var/aaron/zookeeper
并在末尾加入：
server.1=node02:2888:3888
server.2=node03:2888:3888
server.3=node04:2888:3888

创建dataDir文件夹，并新建myid文件，在node02输入1
mkdir /var/aaron/zookeeper
cd /var/aaron/zookeeper
echo 1 > myid

将zookeeper分发到node03、node04，分别修改其myid文件值为2、3。
至此初步配置完成，启动3台zookeeper服务：

~/bin/zkServer.sh start
~/bin/zkServer.sh status
连接：
~/bin/zkCli.sh

4.2 安装配置hadoop HA

修改 hadoop-env.sh，加入：

export JAVA_HOME=/usr/share/jdk8
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root

修改 core-site.xml

<configuration>
    <!-- 指定hdfs的nameservice -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://mycluster</value>
    </property>
    <!-- 指定hadoop临时目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/aaron/hadoop/full</value>
    </property>
    <!-- 指定zookeeper地址 -->
    <property>
        <name>ha.zookeeper.quorum</name>
        <value>node02:2181,node03:2181,node04:2181</value>
    </property>
</configuration>

修改 hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <!--指定hdfs的nameservice为mycluster，需要和core-site.xml中的保持一致 -->
    <property>
        <name>dfs.nameservices</name>
        <value>mycluster</value>
    </property>
<!-- mycluster下面有两个NameNode，分别是nn1，nn2 -->
<property>
    <name>dfs.ha.namenodes.mycluster</name>
    <value>nn1,nn2</value>
</property>

<!-- RPC通信地址 -->
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn1</name>
  <value>node01:9820</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn2</name>
  <value>node02:9820</value>
</property>
<!-- http通信地址 -->
<property>
  <name>dfs.namenode.http-address.mycluster.nn1</name>
  <value>node01:9870</value>
</property>
<property>
  <name>dfs.namenode.http-address.mycluster.nn2</name>
  <value>node02:9870</value>
</property>
<!-- 指定NameNode的edits元数据在JournalNode上的存放位置 -->
<property>
  <name>dfs.namenode.shared.edits.dir</name>
  <value>qjournal://node01:8485;node02:8485;node03:8485/mycluster</value>
</property>
<!-- 指定JournalNode在本地磁盘存放数据的位置 -->
<property>
    <name>dfs.journalnode.edits.dir</name>
    <value>/var/aaron/hadoop/journaldata</value>
</property>
<!-- 开启NameNode失败自动切换 -->
<property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
</property>
<!-- 配置失败自动切换实现方式 -->
<property>
  <name>dfs.client.failover.proxy.provider.mycluster</name>
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>

<!-- 配置隔离机制方法，多个机制用换行分割，即每个机制暂用一行-->
<property>
    <name>dfs.ha.fencing.methods</name>
    <value>
        sshfence
    </value>
</property>
<!-- 使用sshfence隔离机制时需要ssh免登陆 -->
<property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/root/.ssh/id_rsa</value>
</property>
<!-- 配置sshfence隔离机制超时时间 -->
<property>
    <name>dfs.ha.fencing.ssh.connect-timeout</name>
    <value>30000</value>
</property>
</configuration>

hadoop分发到其他节点

4.3 Hadoop HDFS HA集群的启动步骤

注意：严格按照下面的启动步骤

按照前面的启动方式启动zookeeper集群（分别node02、node03、node04上启动zk）
启动journalnode（分别在node01、node02、node03上执行）

sbin/hdfs --daemon start journalnode

[root@node01 /]# jps
2444 JournalNode
2493 Jps
出现JournalNode则表示journalnode启动成功。

格式化 HDFS
在node01上执行命令：

hdfs namenode -format

倒数4行左右的地方，出现这一句就表示成功
common.Storage: Storage directory /home/hadoop/apps/dfs/name has been successfully formatted.

复制 hadoop.tmp.dir 配置下的文件到node02中

必须先启动node01节点上的namenode，在node01上执行：
hdfs --daemon start namenode
jps查看namenode是否已启动
[root@node01 hadoop]# jps
2710 Jps
2444 JournalNode
2668 NameNode

然后再node02上执行：
hdfs namenode -bootstrapStandby

格式化ZKFC(在node01上执行一次即可)

hdfs zkfc -formatZK

在倒数第3行提示如下内容表示成功
ha.ActiveStandbyElector: Successfully created /hadoop-ha/bi in ZK.

此时在zookeeper集群中可以查看：

[root@node04 hadoop]# zkCli.sh

[zk: localhost:2181(CONNECTED) 4] get /hadoop-ha/mycluster

cZxid = 0x100000006
ctime = Thu Dec 20 22:29:00 CST 2018
mZxid = 0x100000006
mtime = Thu Dec 20 22:29:00 CST 2018
pZxid = 0x100000006
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 0
numChildren = 0

启动HDFS(在node01上执行)

start-dfs.sh

访问192.168.33.101：9870、192.168.33.102：9870

5. Hadoop MapReduce、YARN 高可用集群搭建

前面搭建好HDFS后，继续在此基础上完成MapReduce、YARN的配置。

hostname	NN-1	NN-2	DN	ZK	ZKFC	JNN	RS	NM
node01	*				*	*
node02		*	*	*	*	*		*
node03			*	*		*	*	*
node04			*	*			*	*

5.1 修改 mapred-site.xml

<configuration>
    <!-- 指定mr框架为yarn方式 -->
    <property>              
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

5.2 修改yarn-site.xml

<configuration>
    <!-- 开启RM高可用 -->
    <property>
        <name>yarn.resourcemanager.ha.enabled</name>
        <value>true</value>
    </property>

    <!-- 指定RM的cluster id -->
    <property>
        <name>yarn.resourcemanager.cluster-id</name>
        <value>yrc</value>
    </property>

    <!-- 指定RM的名字 -->
    <property>
        <name>yarn.resourcemanager.ha.rm-ids</name>
        <value>rm1,rm2</value>
    </property>

    <!-- 分别指定RM的地址 -->
    <property>
        <name>yarn.resourcemanager.hostname.rm1</name>
    <value>node03</value>
    </property>

    <property>
        <name>yarn.resourcemanager.hostname.rm2</name>
    <value>node04</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address.rm1</name>
        <value>node03:8088</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address.rm2</name>
        <value>node04:8088</value>
    </property>
    <!-- 指定zk集群地址 -->
    <property>
        <name>yarn.resourcemanager.zk-address</name>
        <value>node02:2181,node03:2181,node04:2181</value>
    </property>

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

5.3 修改hadoop-env.sh

在末尾加入：

export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

将以上修改文件分发到其他节点相同目录。

5.4 启动yarn

先启动zookepper：zkServer.sh start
再启动hdfs：start-dfs.sh
启动yarn：start-yarn.sh

http://192.168.33.104:8088

6 windows本地运行调试mapreduce

解压hadoop包到D:/hadoop3.1目录下；
环境变量配置

HADOOP_HOME=C:\hadoop3.1
HADOOP_USER_NAME=root
PATH里添加%HADOOP_HOME%\bin

lib整合
下载bin目录，将bin下的文件覆盖到hadoop部署目录下，再将hadoop.dll 放到 C:/windows/system32下。hadoop-3.1.1对应的bin目录下载。
- 1、缺少winutils.exe：
  Could not locate executable null \bin\winutils.exe in the hadoop binaries
- 2、缺少hadoop.dll：
  Unable to load native-hadoop library for your platform… using builtin-Java classes where applicable
创建Configuration时加入如下代码即可再eclipse或idea里运行了，而无需打成jar包上传到linux再通过命令执行。

Configuration conf = new Configuration();
conf.set("mapreduce.app-submission.coress-paltform", "true");
conf.set("mapreduce.framework.name", "local");

转载请标明出处【hadoop3集群部署方法】。

《www.micoder.cc》虚拟化云计算,系统运维,安全技术服务.

Tags：

[阅读全文...]

网站已经关闭评论

搜索

日志分类

系统导航

友情链接

最新文章

最新评论

日志同步发布到QQ微博

hadoop3集群部署方法

文章目录

1. linux ssh免密登陆配置

2. java环境配置

3. Hadoop完全分布式(full)

4. Hadoop HDFS高可用集群搭建（HA）

4.1 安装配置zookeeper

4.2 安装配置hadoop HA

4.3 Hadoop HDFS HA集群的启动步骤

5. Hadoop MapReduce、YARN 高可用集群搭建

5.1 修改 mapred-site.xml

5.2 修改yarn-site.xml

5.3 修改hadoop-env.sh

5.4 启动yarn

6 windows本地运行调试mapreduce

©2009-2024 Designed by 联系站长