实战CentOS系统部署Hadoop集群服务

2020-06-17 原文

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，Hadoop实现了一个分布式文件系统（Hadoop distributed File System），简称HDFS。HDFS有高容错性特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序；HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

HDFS架构图

一、Hadoop框架简介

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

HDFS(Hadoop distribution File System)，称为Hadoop分布式文件系统，主要特点：

HDFS最小以64MB的数据块存储文件，相比其他文件系统中的4KB~32KB分块大得多。
HDFS在时延的基础上对吞吐量进行了优化，它能够高效处理了对大文件的读请求流，但不擅长对众多小文件的定位请求
HDFS对普通的“一次写入，多次读取”的工作负载进行了优化。
每个存储节点运行着一个称为Datanode的进程，它管理着相应主机上的所有数据块。这些存储节点都由一个称为NameNode的主进程来协调，该进程运行于一台独立进程上。
与磁盘阵列中设置物理冗余来处理磁盘故障或类似策略不同，HDFS使用副本来处理故障，每个由文件组成的数据块存储在集群众的多个节点，HDFS的NameNode不断监视各个Datanode发来的报告。

1、MapReduce工作原理

客户端，提交MapReduce作业；jobtracker，协调作业的运行，jobtracker是一个java应用程序，它的主类是JobTracker；tasktracker。运行作业划分后的任务，tasktracker是一个java应用程序，TaskTracker是主类。

2、Hadoop优点

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

高可靠性：Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性：Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

高容错性：Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

低成本：与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

Hadoop官网：http://hadoop.apache.org/

二、先决条件

保持Hadoop集群每个节点配置环境一致，安装java，配置ssh。

实验环境：

Platform：xen vm

OS: CentOS 6.8

Software: hadoop-2.7.3-src.tar.gz,jdk-8u101-linux-x64.rpm

Hostname	IP Address	OS version	Hadoop role	Node role
linux-node1	192.168.0.89	CentOS 6.8	Master	namenode
linux-node2	192.168.0.90	CentOS 6.8	Slave	datenode
linux-node3	192.168.0.91	CentOS 6.8	Slave	datenode
linux-node4	192.168.0.92	CentOS 6.8	Slave	datenode

#把需要的软件包下载下来上传到集群的各个节点上

三、集群的构架和安装

1、Hosts文件设置

#Hadoop集群中的每个节点的hosts文件都需要修改

[root@linux-node1 ~]# cat /etc/hosts
127.0.0.1 localhost localhost.localdomain linux-node1
192.168.0.89 linux-node1
192.168.0.90 linux-node2
192.168.0.91 linux-node3
192.168.0.92 linux-node4

2、安装java

#提前把下载好的JDK（rpm包）上传到服务器上，然后安装

rpm -ivh jdk-8u101-linux-x64.rpm
export JAVA_HOME=/usr/java/jdk1.8.0_101/
export PATH=$JAVA_HOME/bin:$PATH
# java -version
java version "1.8.0_101"
Java(TM) SE Runtime Environment (build 1.8.0_101-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13,mixed mode)

3、安装hadoop

#创建hadoop用户，设置使用sudo

[root@linux-node1 ~]# useradd hadoop && echo hadoop | passwd --stdin hadoop
[root@linux-node1 ~]# echo "hadoopALL=(ALL) nopASSWD:ALL" >> /etc/sudoers
[root@linux-node1 ~]# su - hadoop
[hadoop@linux-node1 ~]$ cd /usr/local/src/
[hadoop@linux-node1src]$wget http://apache.fayea.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
[hadoop@linux-node1 src]$ sudo tar zxvf hadoop-2.7.3.tar.gz -C /home/hadoop/ && cd /home/hadoop
[hadoop@linux-node1 home/hadoop]$ sudo mv hadoop-2.7.3/ hadoop
[hadoop@linux-node1 home/hadoop]$ sudo chown -R hadoop:hadoop hadoop/

#将hadoop的二进制目录添加到PATH变量，并设置HADOOP_HOME环境变量

[hadoop@linux-node1 home/hadoop]$ export HADOOP_HOME=/home/hadoop/hadoop/
[hadoop@linux-node1 home/hadoop]$ export PATH=$HADOOP_HOME/bin:$PATH

4、创建hadoop相关目录

[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/dfs/{name,data}
[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/tmp

#节点存储数据备份目录

sudo mkdir -p /data/hdfs/{name,data}
sudo chown -R hadoop:hadoop /data/

#上述操作需在hadoop集群的每个节点都操作

5、SSH配置

#设置集群主节点免密码登陆其他节点

[hadoop@linux-node1 ~]$ ssh-keygen -t rsa
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node1@192.168.0.90
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node2@192.168.0.91
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node3@192.168.0.92

#测试ssh登录

6、修改hadoop的配置文件

文件位置：/home/hadoop/hadoop/etc/hadoop，文件名称：hadoop-env.sh、yarn-evn.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、 yarn-site.xml

（1）配置hadoop-env.sh文件

#在hadoop安装路径下，进入hadoop/etc/hadoop/目录并编辑hadoop-env.sh，修改JAVA_HOME为JAVA的安装路径

[hadoop@linux-node1 home/hadoop]$ cd hadoop/etc/hadoop/
[hadoop@linux-node1 hadoop]$ egrep JAVA_HOME hadoop-env.sh
# The only required environment variable is JAVA_HOME. All others are
# set JAVA_HOME in this file,so that it is correctly defined on
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/usr/java/jdk1.8.0_101/

（2）配置yarn.sh文件

指定yran框架的java运行环境，该文件是yarn框架运行环境的配置文件，需要修改JAVA_HOME的位置。

[hadoop@linux-node1 hadoop]$ grep JAVA_HOME yarn-env.sh
# export JAVA_HOME=/home/y/libexec/jdk1.6.0/
export JAVA_HOME=/usr/java/jdk1.8.0_101/

（3）配置slaves文件

指定Datanode数据存储服务器，将所有的Datanode的机器的主机名写入到此文件中，如下：

[hadoop@linux-node1 hadoop]$ cat slaves
linux-node2
linux-node3
linux-node4

Hadoop 3种运行模式

本地独立模式：Hadoop的所有组件，如NameNode，Datanode，Jobtracker，Tasktracker都运行在一个java进程中。

伪分布式模式：Hadoop的各个组件都拥有一个单独的Java虚拟机，它们之间通过网络套接字通信。

完全分布式模式：Hadoop分布在多台主机上，不同的组件根据工作性质的不同安装在不通的Guest上。

#配置完全分布式模式

（4）修改core-site.xml文件，添加红色区域的代码，注意蓝色标注的内容

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://linux-node1:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
</configuration>

（5）修改hdfs-site.xml文件

<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>linux-node1:9001</value>
<description># 通过web界面来查看HDFS状态 </description>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
<description># 每个Block有2个备份</description>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

（6）修改mapred-site.xml

这个是mapreduce任务的配置，由于hadoop2.x使用了yarn框架，所以要实现分布式部署，必须在mapreduce.framework.name属性下配置为yarn。mapred.map.tasks和mapred.reduce.tasks分别为map和reduce的任务数。

[hadoop@linux-node1 hadoop]$ cp mapred-site.xml.template mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>linux-node1:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>linux-node1:19888</value>
</property>
</configuration>

（7）配置节点yarn-site.xml

#该文件为yarn架构的相关配置

<?xml version="1.0"?>
<!-- mapred-site.xml -->
<configuration>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx400m</value>
<!--Not marked as final so jobs can include JVM debuggung options -->
</property>
</configuration>
<?xml version="1.0"?>
<!-- yarn-site.xml -->
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>linux-node1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>linux-node1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>linux-node1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>linux-node1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>linux-node1:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>8192</value>
</property>
</configuration>

7、复制hadoop到其他节点

scp -r /home/hadoop/hadoop/ 192.168.0.90:/home/hadoop/
scp -r /home/hadoop/hadoop/ 192.168.0.91:/home/hadoop/
scp -r /home/hadoop/hadoop/ 192.168.0.92:/home/hadoop/

8、在linux-node1使用hadoop用户初始化NameNode

/home/hadoop/hadoop/bin/hdfs namenode –format

#echo $?
#sudo yum –y install tree
# tree /home/hadoop/dfs

9、启动hadoop

/home/hadoop/hadoop/sbin/start-dfs.sh
/home/hadoop/hadoop/sbin/stop-dfs.sh

#namenode节点上面查看进程

ps aux | grep --color namenode

#Datanode上面查看进程

ps aux | grep --color datanode

10、启动yarn分布式计算框架

[hadoop@linux-node1 .ssh]$ /home/hadoop/hadoop/sbin/start-yarn.sh starting yarn daemons

#NameNode节点上查看进程

ps aux | grep --color resourcemanager

#Datanode节点上查看进程

ps aux | grep --color nodemanager

注：start-dfs.sh和start-yarn.sh这两个脚本可用start-all.sh代替

/home/hadoop/hadoop/sbin/stop-all.sh
/home/hadoop/hadoop/sbin/start-all.sh

11、启动jobhistory服务，查看mapreduce状态

#在NameNode节点上

[hadoop@linux-node1 ~]$ /home/hadoop/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver
starting historyserver,logging to /home/hadoop/hadoop/logs/mapred-hadoop-historyserver-linux-node1.out

12、查看HDFS分布式文件系统状态

/home/hadoop/hadoop/bin/hdfs dfsadmin –report

#查看文件块组成，一个文件由那些块组成

/home/hadoop/hadoop/bin/hdfs fsck / -files -blocks

13、web页面查看hadoop集群状态

查看HDFS状态：http://192.168.0.89:50070/

查看Hadoop集群状态：http://192.168.0.89:8088/

实战CentOS系统部署Hadoop集群服务的更多相关文章

OpenStack对象存储――Swift

Swift前身是RackspaceCloudFiles项目，随着Rackspace加入到OpenStack社区，于2010年7月贡献给OpenStack，作为该开源项目的一部分。Swift目前的最新版本是OpenStackEssex1.5.1。Swift特性在OpenStack官网中，列举了Swift的20多个特性，其中最引人关注的是以下几点。在OpenStack中还可以与镜像服务Glance结合，为其存储镜像文件。Auth认证服务目前已从Swift中剥离出来，使用OpenStack的认证服务Keysto
对象存储系统Swift技术详解：综述与概念

通过阅读Swift的技术文档，我们可以理解其中的设计的原理和实现的方法。本人于9月底开始接触swift，刚开始看文档的时候一知半解，有幸阅读了zzcase等人的博客，才得以入门。随着对swift设计原理的理解和源码的深入，文档经过数次反复的修改，希望对各位学习swift的童鞋有所帮助，水平有限，若各位发现有错误之处，恳请指出。
《转》OpenStack对象存储——Swift

Swift前身是RackspaceCloudFiles项目，随着Rackspace加入到OpenStack社区，于2010年7月贡献给OpenStack，作为该开源项目的一部分。Swift目前的最新版本是OpenStackEssex1.5.1。Swift特性在OpenStack官网中，列举了Swift的20多个特性，其中最引人关注的是以下几点。在OpenStack中还可以与镜像服务Glance结合，为其存储镜像文件。Auth认证服务目前已从Swift中剥离出来，使用OpenStack的认证服务Keysto
OpenStack 对象存储 Swift 简单介绍

Swift最适合的就是永久类型的静态数据的长期存储。提供账号验证的节点被称为AccountServer。Swift中由Swauth提供账号权限认证服务。ProxyserveracceptsincomingrequestsviatheOpenStackObjectAPIorjustrawHTTP.Itacceptsfilestoupload,modificationstoMetadataorcontainercreation.Inaddition,itwillalsoservefilesorcontaine
Project Perfect让Swift在服务器端跑起来－在Linux上创建你的Perfect项目(三)

前两篇，分别讲述了入门和在Linux下部署，现在得说说如何在Linux下开发了。在Linux下开发，相对比在Mac下开发更灵活。我们先来看看构建基于Perfect的网站服务的编译方式如图通过引用基础库PerfectLib和数据链接，中间件模块创建你的网页文件，并用makefile打包生成你的网站动态库。所以如果你只是在Linux下构建项目，你只需要先创建好你的Handlers.swift即可。根据上面的方式我们开始在Linux下创建我们的Perfect项目。这里我在Perfect文件夹创建了一个Demo文
使用 Swift 语言编写 Android 应用入门

Swift标准库可以编译安卓armv7的内核，这使得可以在安卓移动设备上执行Swift语句代码。做梦，虽然Swift编译器可以胜任在安卓设备上编译Swift代码并运行。这需要的不仅仅是用Swift标准库编写一个APP，更多的是你需要一些框架来搭建你的应用用户界面，以上这些Swift标准库不能提供。简单来说，构建在安卓设备上使用的Swiftstdlib需要libiconv和libicu。通过命令行执行以下命令：gitclonegit@github.com:SwiftAndroid/libiconv-libi
Project Perfect让Swift在服务器端跑起来－Hi Linux(二)

开篇写了一个简单的入门，今天想说说怎么让Perfect项目在Linux上运行。Swift开源后，苹果让Swift不仅在OSX/iOS上跑，更让Swift在Linux/Windows上跑。作为服务端的Perfect框架＋RemObjectSilver，让Swift成为了一个全栈语言。Perfect由于是服务端的，让Perfect在Linux上跑是必然的事情。从第一篇文章中我们可以了解到Perfect由PerfectLib和PerfectServer组成。
Project Perfect让Swift在服务器端跑起来－在Linux上创建你的Perfect项

前两篇，分别讲述了入门和在Linux下部署，现在得说说如何在Linux下开发了。在Linux下开发，相对比在Mac下开发更灵活。我们先来看看构建基于Perfect的网站服务的编译方式如图通过引用基础库PerfectLib和数据链接，中间件模块创建你的网页文件，并用makefile打包生成你的网站动态库。所以如果你只是在Linux下构建项目，你只需要先创建好你的Handlers.Swift即可。根据上面的方式我们开始在Linux下创建我们的Perfect项目。
使用 Swift语言进行 Hadoop 数据流应用程序开发

如果您发现了问题，或者希望为改进本文提供意见和建议，请在这里指出.在您开始之前，请参阅目前待解决的问题清单.简介本项目包括两类Hadoop流处理应用程序：映射器mapper和总结器reducer。如上所示，在Hadoop上编写流处理程序是一个很简单的工作，也不需要依赖于特定的软件体系。
Swift for OS X编译Linux？

我对其他平台上Swift的构建过程感到困惑.Swift是否允许我在OSX上构建Linux项目,或者我是否需要在Linux上专门使用Swift来构建我计划在那里使用的任何东西？我查看了documentation,但这个主题并不是很清楚……

随机推荐

在airgapped(离线)CentOS 6系统上安装yum软件包

我有一个CentOS6系统,出于安全考虑,它已经被空气泄漏.它可能从未连接到互联网,如果有,它很长时间没有更新.我想将所有.rpm软件包放在一个驱动器上,这样它们就可以脱机安装而无需查询互联网.但是,我在测试VM上遇到的问题是,即使指定了本地路径,yum仍然会挂起并尝试从在线存储库进行更新.另外,有没有办法使用yum-utils/yumdownloader轻松获取该包的所有依赖项和所有依赖项？目前
centos – 命名在日志旋转后停止记录到rsyslog

CentOS6.2,绑定9.7.3,rsyslog4.6.2我最近设置了一个服务器,我注意到在日志轮换后,named已停止记录到/var/log/messages.我认为这很奇怪,因为所有日志记录都是通过rsyslog进行的,并且named不会直接写入日志文件.这更奇怪,因为我在更新区域文件后命名了HUPed,但它仍然没有记录.在我停止并重新启动命名后,记录恢复.这里发生了什么？
centos – 显示错误的磁盘大小

对于其中一个磁盘,Df-h在我的服务器上显示错误的空白区域：Cpanel表明它只有34GB免费,但还有更多.几分钟前,我删除了超过80GB的日志文件.所以,我确信它完全错了.fdisk-l/dev/sda2也显示错误：如果没有格式化,我该怎么做才能解决这个问题？并且打开文件描述符就是它需要使用才能做到这一点.所以…使用“lsof”并查找已删除的文件.重新启动写入日志文件的服务,你很可能会看到空间可用.
如何在centos 6.9上安装docker-ce 17？

我目前正在尝试在centOS6.9服务器上安装docker-ce17,但是,当运行yuminstalldocker-ce时,我收到以下错误：如果我用跳过的标志运行它我仍然得到相同的消息,有没有人知道这方面的方法？
centos – 闲置工作站的异常负载平均值

我有一个新的工作站,具有不寻常的高负载平均值.机器规格是：>至强cpu>256GB的RAM>4x512GBSSD连接到LSI2108RAID控制器我从livecd安装了CentOS6.564位,配置了分区,网络,用户/组,并安装了一些软件,如开发工具和MATLAB.在启动几分钟后,工作站负载平均值的值介于0.5到0.9之间.但它没有做任何事情.因此我无法理解为什么负载平均值如此之高.你能帮我诊断一下这个问题吗？
centos – Cryptsetup luks – 检查内核是否支持aes-xts-plain64密码

我在CentOS5上使用cryptsetupluks加密加密了一堆硬盘.一切都很好,直到我将系统升级到CentOS6.现在我再也无法安装磁盘了.使用我的关键短语装载：我收到此错误：在/var/log/messages中：有关如何装载的任何想法？找到解决方案问题是驱动器使用大约512个字符长的交互式关键短语加密.出于某种原因,CentOS6中的新内核模块在由旧版本创建时无法正确读取512个字符的加密密钥.似乎只会影响内核或cryptsetup的不同版本,因为在同一系统上创建和打开时,512字符的密钥将起作用
centos – 大量ssh登录尝试

22个我今天登录CentOS盒找到以下内容这是过去3天内的11次登录尝试.WTF？请注意,这是我从我的提供商处获得的全新IP,该盒子是全新的.我还没有发布任何关于此框的内容.为什么我会进行如此大量的登录尝试？是某种IP/端口扫描？基本上有4名匪徒,其中2名来自中国,1名来自香港,1名来自Verizon.这只发生在SSH上.HTTP上没有问题.我应该将罪魁祸首子网路由吗？你们有什么建议？
centos – kswap使用100％的CPU,即使有100GB的RAM也可用

>Linux内核是否应该足够智能,只需从内存中清除旧缓存页而不是启动kswap？
centos – Azure将VM从A2 / 3调整为DS2 v2

我正在尝试调整前一段时间创建的几个AzureVM,从基本的A3和标准A3到标准的DS2v2.我似乎没有能力调整到这个大小的VM.必须从头开始重建服务器会有点痛苦.如果它有所不同我在VM中运行CentOS,每个都有一个带有应用程序和操作系统的磁盘.任何人都可以告诉我是否可以在不删除磁盘的情况下删除VM,创建新VM然后将磁盘附加到新VM？
centos – 广泛使用RAM时服务器计算速度减慢

我在非常具体的情况下遇到服务器速度下降的问题.事实是：>1)我使用计算应用WRF>2)我使用双XeonE5-2620v3和128GBRAM(NUMA架构–可能与问题有关！