Hadoop搭建-Java与大数据

第1章 Hadoop运行环境搭建

1.1 虚拟机环境准备

1.1.1 克隆虚拟机

虚拟机配置要求如下：
单台虚拟机：cpu2个，内存4G，硬盘50G，最小化安装。

（1）安装必要环境

sudo yum install -y epel-release

sudo yum install -y psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static

（2）修改克隆虚拟机的静态IP（注意：IP网段需和主机网段不一样）

sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33

改成

DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"
IPADDR=192.168.1.101
PREFIX=24
GATEWAY=192.168.1.2
DNS1=192.168.1.2

（3）查看Linux虚拟机的虚拟网络编辑器，编辑->虚拟网络编辑器->VMnet8

（4）查看Windows系统适配器VMware Network Adapter VMnet8的IP地址

（5）保证Linux文件中IP地址、Linux虚拟网络编辑器地址和Windows系统VM8网络IP地址相同。

1.1.2 修改主机名

（1）修改主机名称为hadoop101

sudo hostnamectl --static set-hostname hadoop101

（2）配置主机名称映射，打开/etc/hosts

sudo vim /etc/hosts

添加如下内容,根据配多少台服务器添加

192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108

（3）修改window7的主机映射文件（hosts文件）

a. 进入C:\Windows\System32\drivers\etc路径

b. 打开hosts文件并添加如下内容

192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108

（4）修改window10的主机映射文件（hosts文件）

a. 进入C:\Windows\System32\drivers\etc路径

注意：win10系统有的版本中，该路径没有hosts文件，可以通过cmd执行以下命令。
for /f %P in ('dir %windir%\WinSxS\hosts /b /s') do copy %P %windir%\System32\drivers\etc & echo %P & Notepad %P

b. 拷贝hosts文件到桌面

c. 打开桌面hosts文件并添加如下内容

192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108

d. 将桌面hosts文件覆盖C:\Windows\System32\drivers\etc路径hosts文件

e.测试，可在windows的cmd命令窗口中用ping hadoop101来测试以上配置是否成功。

1.1.3 关闭防火墙

sudo systemctl stop firewalld
sudo systemctl disable firewalld

1.1.4 创建用户

例如，创建lstudents用户：

sudo useradd lstudents
sudo passwd lstudents

1.1.5 重启虚拟机

reboot

1.1.6 配置用户权限

例如，配置lstudents用户具有root权限

visudo

修改/etc/sudoers文件，找到下面一行（91行），在root下面添加一行，如下所示：

## Allow root to run any commands anywhere
root    ALL=(ALL)     ALL
lstudents   ALL=(ALL)     ALL

1.1.7 创建软件路径和安装路径

（1）在/opt目录下创建module、software文件夹

sudo mkdir /opt/module /opt/software

（2）修改module、software文件夹的所有者cd

sudo chown lstudents:lstudents /opt/module /opt/software

1.2 安装JDK

1.如果原本有JDK，需要卸载现有JDK

rpm -qa | grep -i java | xargs -n1 sudo rpm -e –nodeps

2.下载好JDK，将JDK上传到opt目录下面的software文件夹下面。

3.在Linux系统下的opt目录中查看软件包是否导入成功

ls /opt/software/

看到如下结果：

hadoop-3.1.3.tar.gz  jdk-8u212-linux-x64.tar.gz

4.解压JDK到/opt/module目录下

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

5.配置JDK环境变量

（1）新建/etc/profile.d/my_env.sh文件

sudo vim /etc/profile.d/my_env.sh

添加如下内容

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

（2）保存后退出

:wq

（3）让环境变量生效

source /etc/profile

6.测试JDK是否安装成功

java -version

如果能看到以下结果、则Java正常安装

java version "1.8.0_212"

注意：重启（如果java -version可以用就不用重启）

sudo reboot

1.3 安装Hadoop

Hadoop下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/

1.将hadoop-3.1.3.tar.gz上传到opt目录下面的software文件夹下面。

2.进入到Hadoop安装包路径下

[lstudents@hadoop101 ~]$ cd /opt/software/

3.解压安装文件到/opt/module下面

[lstudents@hadoop101 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

4.查看是否解压成功

[lstudents@hadoop101 software]$ ls /opt/module/
hadoop-3.1.3

5.将Hadoop添加到环境变量

（1）获取Hadoop安装路径

[lstudents@hadoop101 hadoop-3.1.3]$ pwd
/opt/module/hadoop-3.1.3

（2）打开/etc/profile.d/my_env.sh文件

[lstudents@hadoop101 hadoop-3.1.3]$ sudo vim /etc/profile.d/my_env.sh

在my_env.sh文件末尾添加HADOOP路径：（shitf+g）

##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

（3）保存后退出

:wq

（4）让修改后的文件生效

[lstudents@ hadoop101 hadoop-3.1.3]$ source /etc/profile

6.测试是否安装成功

[lstudents@hadoop101 hadoop-3.1.3]$ hadoop version
Hadoop 3.1.3

7.重启(如果Hadoop命令不能用再重启)

[lstudents@ hadoop101 hadoop-3.1.3]$ sync
[lstudents@ hadoop101 hadoop-3.1.3]$ sudo reboot

1.4 Hadoop目录结构

1、查看Hadoop目录结构

[lstudents@hadoop101 hadoop-3.1.3]$ ll

drwxr-xr-x. 2 lstudents lstudents 4096 4月  22 2022 bin
drwxr-xr-x. 3 lstudents lstudents 4096 4月  22 2022 etc
drwxr-xr-x. 2 lstudents lstudents 4096 4月  22 2022 include
drwxr-xr-x. 3 lstudents lstudents 4096 4月  22 2022 lib
drwxr-xr-x. 2 lstudents lstudents 4096 4月  22 2022 libexec
-rw-r--r--. 1 lstudents lstudents 15429 4月  22 2022 LICENSE.txt
-rw-r--r--. 1 lstudents lstudents 101 4月  22 2022 NOTICE.txt
-rw-r--r--. 1 lstudents lstudents 1366 4月  22 2022 README.txt
drwxr-xr-x. 2 lstudents lstudents 4096 4月  22 2022 sbin
drwxr-xr-x. 4 lstudents lstudents 4096 4月  22 2022 share

2、重要目录

（1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本

（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件

（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）

（4）sbin目录：存放启动或停止Hadoop相关服务的脚本

（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

第2章Hadoop运行模式

1.Hadoop 官方网站：http://hadoop.apache.org/
2.Hadoop 运行模式包括：本地模式、伪分布式模式以及完全分布式模式。
（1）本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
（2）伪分布式模式：也是单机运行，但是具备 Hadoop 集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
（3）完全分布式模式：多台服务器组成分布式环境。生产环境使用。

2.1完全分布式运行模式

分析：
1）准备3台客户机（关闭防火墙、静态IP、主机名称）
2）安装JDK,配置环境变量
3）安装Hadoop,配置环境变量
4）配置集群
5）单点启动
6）配置ssh
7）群起并测试集群

2.1.1编写xsync集群分发脚本

（1）需求：循环复制文件到所有节点的相同目录下

（2）需求分析：

rsync命令原始拷贝：
rsync -av /opt/module lstudents@hadoop102:/opt/
期望脚本：
xsync要同步的文件名称
期望脚本在任何路径都能使用（脚本放在声明了全局环境变量的路径），如下，经过查看我们可以选择home/lstudents/bin这个路径。

[lstudents@hadoop101 ~]$ echo $PATH
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/lstudents/.local/bin:/home/lstudents/bin:/opt/module/jdk1.8.0_212/bin

（3）脚本实现

在/home/lstudents/bin目录下创建xsync文件

[lstudents@hadoop101 opt]$ cd /home/lstudents
[lstudents@hadoop101 ~]$ mkdir bin
[lstudents@hadoop101 ~]$ cd bin
[lstudents@hadoop101 bin]$ vim xsync

在该文件中编写如下代码

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
for host in hadoop101 hadoop102 hadoop103
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

修改脚本 xsync 具有执行权限

[lstudents@hadoop101 bin]$ chmod +x xsync

测试脚本,执行以下代码后可以在另外两台服务器相同目录看到xsync文件

[lstudents@hadoop101 ~]$ xsync /home/lstudents/bin

将脚本复制到/bin中，以便全局调用

[lstudents@hadoop101 bin]$ sudo cp xsync /bin/

同步环境变量配置（root所有者）
注意：如果用了sudo，那么xsync一定要给它的路径补全。

[lstudents@hadoop101 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh

让另外两台服务器的环境变量生效

[lstudents@hadoop102 bin]$ source /etc/profile
[lstudents@hadoop103 opt]$ source /etc/profile

2.1.2SSH无密登录配置

1）.ssh文件夹下（~/.ssh）的文件功能解释

文件	功能解释
known_hosts	记录ssh访问过计算机的公钥（public key）
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过的无密登录服务器公钥

2）生成公钥和私钥

[lstudents@hadoop101 .ssh]$ ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

3）将公钥拷贝到要免密登录的目标机器上

[lsutdents@hadoop101 .ssh]$ ssh-copy-id hadoop101
[lsutdents@hadoop101 .ssh]$ ssh-copy-id hadoop102
[lsutdents@hadoop101 .ssh]$ ssh-copy-id hadoop103

注意：由于分发脚本中也会给自己分发文件，所以也需要把公钥拷贝发给自己一份。因为需要互相互发文件，hadoop102和hadoop103也同样需要这样配置一遍。如果root用户需要分发文件，那么也需要切换至root用户操作一遍。

2.1.3集群配置

1)集群部署规划

NameNode和SecondaryNameNode不要安装在同一台服务器
ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

	hadoop101	hadoop102	hadoop103
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

2)Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。
（1）默认配置文件：

要获取的默认文件	文件存放在Hadoop的jar包中的位置
[core-default.xml]	hadoop-common-3.1.3.jar/core-default.xml
[hdfs-default.xml]	hadoop-hdfs-3.1.3.jar/hdfs-default.xml
[yarn-default.xml]	hadoop-yarn-common-3.1.3.jar/yarn-default.xml
[mapred-default.xml]	hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml

可以使用find $HADOOP_HOME -name 'hadoop-common-3.1.3.jar'命令查找jar包位置，进入jar包所在目录，
然后使用jar -xf hadoop-common-3.1.3.jar --include "core-default.xml"命令将对应xml文件提取到当前路径下。

（2）自定义配置文件：
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

3）配置集群
（1）配置核心配置文件--core-site.xml

[lstudents@hadoop101 ~]$ cd $HADOOP_HOME/etc/hadoop
[lstudents@hadoop101 hadoop]$ vim core-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop101:8020</value>
    </property>

    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>
</configuration>

可选项：如果需要在hdf页面上对文件进行操作，可添加如下配置。

<!-- 配置HDFS网页登录使用的静态用户为lstudents -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>lstudents</value>
    </property>

（2）配置HDFS配置文件--hdfs-site.xml

[lstudents@hadoop101 hadoop]$ vim hdfs-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- nn web端访问地址-->
	<property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop101:9870</value>
    </property>
	<!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop103:9868</value>
    </property>
</configuration>

（3）配置YARN配置文件--yarn-site.xml

[lstudents@hadoop101 hadoop]$ vim yarn-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop102</value>
    </property>

    <!-- 环境变量的继承(这个似乎是hadoop3.1.3的一个bug，到了3.2版本就不需要配置这个了) -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

（4）配置MapReduce配置文件--mapred-site.xml

[lstudents@hadoop101 hadoop]$ vim mapred-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4）在集群上分发配置好的Hadoop配置文件

[lstudents@hadoop101 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/

5）去103和104上查看文件分发情况

[lstudents@hadoop102 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[lstudents@hadoop1043~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

2.1.4群起集群

1）配置workers

[lstudents@hadoop101 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在该文件中增加如下内容：

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

hadoop101
hadoop102
hadoop103

同步所有节点配置文件

[lstudents@hadoop101 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc

2）启动集群
（1）如果集群是第一次启动，需要在hadoop101节点格式化NameNode（ 注意： 格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）

[lstudents@hadoop101 hadoop-3.1.3]$ hdfs namenode -format

（2）启动HDFS

[lstudents@hadoop101 hadoop-3.1.3]$ sbin/start-dfs.sh

（3）在配置了ResourceManager的节点（hadoop103）启动YARN

[lstudents@hadoop102 hadoop-3.1.3]$ sbin/start-yarn.sh

（4）Web端查看HDFS的NameNode

浏览器中输入：http://hadoop101:9870
查看HDFS上存储的数据信息

（5）Web端查看YARN的ResourceManager

浏览器中输入：http://hadoop102:8088
查看YARN上运行的Job信息

2.1.5配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：
1）配置mapred-site.xml

[lstudents@hadoop101 hadoop]$ vim mapred-site.xml

在该文件里面增加如下配置。

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop101:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop101:19888</value>
</property>

2）分发配置

[lstudents@hadoop101 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

3）在hadoop101启动历史服务器

[lstudents@hadoop101 hadoop]$ mapred --daemon start historyserver

4）查看历史服务器是否启动

[lstudents@hadoop101 hadoop]$ jps

5）查看JobHistory

http://hadoop101:19888/jobhistory

2.1.6配置日志的聚集

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。
注意： 开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。

开启日志聚集功能具体步骤如下：
1）配置yarn-site.xml

[lstudents@hadoop101 hadoop]$ vim yarn-site.xml

在该文件里面增加如下配置。

<!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://hadoop101:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

2）分发配置

[lstudents@hadoop101 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

3）关闭NodeManager 、ResourceManager和HistoryServer

[lstudents@hadoop102 hadoop-3.1.3]$ sbin/stop-yarn.sh
[lstudents@hadoop102 hadoop-3.1.3]$ mapred --daemon stop historyserver

4）启动NodeManager 、ResourceManage和HistoryServer

[lstudents@hadoop102 ~]$ start-yarn.sh
[lstudents@hadoop101 ~]$ mapred --daemon start historyserver

5）查看日志
历史服务器地址:
http://hadoop101:19888/jobhistory

2.1.7集群启动/停止方式总结

1）各个模块分开启动/停止（配置ssh是前提）常用
（1）整体启动/停止HDFS
start-dfs.sh/stop-dfs.sh
（2）整体启动/停止YARN
start-yarn.sh/stop-yarn.sh
2）各个服务组件逐一启动/停止
（1）分别启动/停止HDFS组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode
（2）启动/停止YARN
yarn --daemon start/stop resourcemanager/nodemanager

2.1.8编写Hadoop集群常用脚本

1）Hadoop集群启停脚本（包含HDFS，Yarn，Historyserver）：myhadoop.sh

[lstudents@hadoop101 ~]$ cd /home/lstudents/bin
[lstudents@hadoop101 bin]$ vim myhadoop.sh

输入如下内容:

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop101 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop101 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop101 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop101 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

保存后退出，然后赋予脚本执行权限。

[lstudents@hadoop102 bin]$ chmod +x myhadoop.sh

2）查看三台服务器Java进程脚本：jpsall

[lstudents@hadoop102 ~]$ cd /home/lstudents/bin
[lstudents@hadoop102 bin]$ vim jpsall

输入如下内容:

#!/bin/bash

for host in hadoop101 hadoop102 hadoop103
do
        echo =============== $host ===============
        ssh $host jps 
done

保存后退出，然后赋予脚本执行权限

[lstudents@hadoop101 bin]$ chmod +x jpsall

3）分发/home/lstudents/bin目录，保证自定义脚本在三台机器上都可以使用

[lstudents@hadoop101 ~]$ xsync /home/lstudents/bin/

2.1.9常用端口号说明

端口名称	Hadoop2.x	Hadoop3.x
NameNode内部通信端口	8020/9000	8020/9000/9820
NameNode HTTP UI	50070	9870
MapReduce查看执行任务端口	8088	8088
历史服务器通信端口	19888	19888

2.1.10集群时间同步

如果服务器在公网环境（能连接外网），可以不采用集群时间同步，因为服务器会定期和公网时间进行校准；
如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同步。
1）需求
找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，生产环境根据任务对时间的准确程度要求周期同步。测试环境为了尽快看到效果，采用1分钟同步一次。
2）时间服务器配置（必须root用户）
（1）查看所有节点ntpd服务状态和开机自启动状态,假定

[lstudents@hadoop101 ~]$ sudo systemctl status ntpd
[lstudents@hadoop101 ~]$ sudo systemctl start ntpd
[lstudents@hadoop101 ~]$ sudo systemctl is-enabled ntpd

（2）修改hadoop101的ntp.conf配置文件
[lstudents@hadoop101 ~]$ sudo vim /etc/ntp.conf
修改内容如下
（a）修改1（授权192.168.10.0-192.168.10.255网段上的所有机器可以从这台机器上查询和同步时间）
#restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
为
restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
（b）修改2（集群在局域网中，不使用其他互联网上的时间）

server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst

为

#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

（c）添加3（当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）

server 127.127.1.0
fudge 127.127.1.0 stratum 10

（3）修改hadoop102的/etc/sysconfig/ntpd 文件
[lstudents@hadoop101 ~]$ sudo vim /etc/sysconfig/ntpd
增加内容如下（让硬件时间与系统时间一起同步）
SYNC_HWCLOCK=yes

（4）重新启动ntpd服务
[lstudents@hadoop101 ~]$ sudo systemctl start ntpd

（5）设置ntpd服务开机启动
[lstudents@hadoop101 ~]$ sudo systemctl enable ntpd

3）其他机器配置（必须root用户）
（1）关闭所有节点上ntp服务和自启动

[lstudents@hadoop102 ~]$ sudo systemctl stop ntpd
[lstudents@hadoop102 ~]$ sudo systemctl disable ntpd
[lstudents@hadoop103 ~]$ sudo systemctl stop ntpd
[lstudents@hadoop103 ~]$ sudo systemctl disable ntpd

（2）在其他机器配置1分钟与时间服务器同步一次
[lstudents@hadoop102 ~]$ sudo crontab -e
编写定时任务如下：

*/1 * * * * /usr/sbin/ntpdate hadoop101

（3）修改任意机器时间
[lstudents@hadoop102 ~]$ sudo date -s "2021-9-11 11:11:11"
（4）1分钟后查看机器是否与时间服务器同步
[lstudents@hadoop102 ~]$ sudo date

目录CONTENT

Hadoop搭建

第1章 Hadoop运行环境搭建

1.1 虚拟机环境准备

1.1.1 克隆虚拟机

1.1.2 修改主机名

1.1.3 关闭防火墙

1.1.4 创建用户

1.1.5 重启虚拟机

1.1.6 配置用户权限

1.1.7 创建软件路径和安装路径

1.2 安装JDK

1.3 安装Hadoop

1.4 Hadoop目录结构

第2章Hadoop运行模式

2.1完全分布式运行模式

2.1.1编写xsync集群分发脚本

2.1.2SSH无密登录配置

2.1.3集群配置

2.1.4群起集群

2.1.5配置历史服务器

2.1.6配置日志的聚集

2.1.7集群启动/停止方式总结

2.1.8编写Hadoop集群常用脚本

2.1.9常用端口号说明

2.1.10集群时间同步

评论区