ubuntu上安装 hadoop

2020-06-11 原文

工具及软件

1. ubuntu 12.04 (安装在虚拟机里这里用的是vmware)

2. hadoop 2.6.5 点我下载

在进行本章节前，首先确认已经完成以下2步骤

1. ubuntu 上安装ssh 服务

2. ubuntu 上安装JDK

接着进行ubuntu上安装 hadoop

首先下载 hadoop 点我下载我这里用的是 2.6.5版本（2.x）

网络适配器设置成 host only (仅主机)模式

打开 vmware 安装路径下的 vmnetcfg.exe ，设置 VMnet1 的子网端为8，如下 192.168.8.100 这个是windows 系统的ip.

可以理解此计算机上安装了虚拟网卡，地址值 192.168.8.100,那之后我们可以通过虚拟机可以和外部windows通信

进入虚拟机，设置ubuntu机器的IP地址，这里我们就直接UI界面手动设置固定IP，当然也可以通过命令设置

我们设置了地址是8 网段，和宿主机器网段一样地址:88

在用户名下创建我的工作目录如src

root@ubuntu:/home/dragon# mkdir src

通过 FileZilla上传下载好的 hadoop2.6.5.tar.gz 文件

为了方便工作，我们在跟目录创建自己的目录如创建finder

#mkdir /finder

#mkdir /finder/hadoop

解压hadoop到 /finder/hadoop目录

#tar -zxvf /home/dragon/src/hadoop-2.6.5.tar.gz -C /finder/hadoop

设置环境变量

#nano /etc/profile

export HADOOP_HOME="/finder/hadoop/hadoop-2.6.5"

export JAVA_HOME="/usr/java/jdk1.7.0_76"
export PATH="$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin"
export JRE_HOME="$JAVA_HOME/jre"
export CLAsspATH=".:$JAVA_HOME/lib:$JRE_HOME/lib"

修改hadoop相关配置，共需要修改 5个文件

hadoop-env.sh、 core-site.xml、 hdfs-site.xml、yarn.site.xml、 mapred-site.xml

1. 打开 hadoop-env.sh 设置JDK路径

# nano hadoop-env.sh
# The java implementation to use.
export JAVA_HOME=/usr/java/jdk1.7.0_76

2. 编辑 core-site.xml

# nano core-site.xml
 
<configuration>
        <property>
                <name>fs.default.name</name> <!-- 指定HDFS 节点（namenode）的通信地址 -->
                <value>hdfs://192.168.8.88:9000</value>
        </property>
    <property>
                <name>hadoop.tmp.dir</name> <!-- 指定hadoop运行时产生文件的存储路径,非正常意义上的临时文件 -->
                <value>/finder/hadoop/tmp</value>
        </property>


</configuration>

3. 编辑 hdfs-site.xml

 #nano  hdfs-site.xml

<configuration>
   <property>
        <name>dfs.replication</name> <!-- 设置hdfs副本数量  这里我们只有一台机器，那肯定副本就写1个-->
        <value>1</value>
   </property>
</configuration>

4. 编辑 mapred-site.xml

如果不存在mapred-site.xml ：mapred-site.xml.template 需要重命名： mv mapred-site.xml.template mapred-site.xml

# nano mapred-site.xml

   <configuration>
   <property>
       <name>mapreduce.framework.name</name><!-- 通知框架MR使用YARN -->
       <value>yarn</value>
    </property>

</configuration>

5. 编辑 yarn-site.xml

# nano yarn-site.xml

<configuration>


<!-- Site specific YARN configuration properties -->


   <property>
       <name>yarn.nodemanager.aux-services</name><!-- reducer取数据的方式是mapreduce_shuffle -->
       <value>mapreduce_shuffle</value>
    </property><property>
   <name>yarn.resourcemanager.webapp.address</name> <!-- 资源管理WEB地址 最好设置，不设置可能 默认 8088端口不会启动 -->
   <value>192.168.8.88:8088</value>
 </property>
   <property>
       <name>yarn.resourcemanager.hostname</name>
       <value>ubuntu</value>
   </property>
</configuration>

文件配置好后，下面就可以运行了

运行前首先需要格式化 HDFS文件系统

进入 bin目录

执行

hdfs namenode -format

执行成功后，可以看到 hadoop.dir.tmp 指向的目录被初始化

现在可以启动hadoop了

进入 sbin目录cd /finder/hadoop/hadoop-2.6.5/sbin

执行：

./start-all.sh

This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh

当然以上的启动命令过时了，应该分别启动这2个命令 ./start-yarn.sh ./start-dfs.sh

启动的时候，需要输入密码，如果配置ssh 免登陆就不需要设置密码了

由此要注意 ssh的端口通过hadoop在启动的时候也需要连接的，如果端口修改了，那么hadoop指向的 ssh-server的端口也需要修改

查看是否启动成功，执行jps (注意：如果 jps找不到) 查看环境变量有没有设置或者更新 source /etc/profile

如果还是不行，请查看JDK安装文章，重新选择JDK

root@ubuntu:/finder/hadoop/hadoop-2.6.5/sbin# which jps
/usr/java/jdk1.7.0_76/bin/jps

可以查看jps命令原来是 jdk下面的命令

jps查看运行的进程

root@ubuntu:/finder/hadoop/hadoop-2.6.5/sbin# jps
6827 ResourceManager  
6658 SecondaryNameNode
6389 Datanode
7039 NodeManager
6188 NameNode

这样就搞定 hadoop环境部署,并且搭建的本地的为分布式环境

hadoop自带的web控制台GUI查看

1. 资源管理 http://localhost:8088

2. 节点管理: http://localhost:50070

测试上传下载文件。命令和linux命令差不多只是多了个hadoop fs

我们把 hadoop-2.6.5.tar.gz上传到 hdfs 文件系统使用 put命令

下载使用 get

root@ubuntu:/finder# hadoop fs -put /home/dragon/src/hadoop-2.6.5.tar.gz hdfs://192.168.8.88:9000/hadoop
root@ubuntu:/finder# hadoop fs -ls hdfs://192.168.8.88:9000
ls: `hdfs://192.168.8.88:9000': No such file or directory
root@ubuntu:/finder# hadoop fs -ls hdfs://192.168.8.88:9000/
Found 5 items
-rw-r--r--   1 root supergroup  199635269 2017-02-21 12:15 hdfs://192.168.8.88:9000/hadoop
-rw-r--r--   1 root supergroup  142249690 2017-02-20 20:53 hdfs://192.168.8.88:9000/jdk
drwx------   - root supergroup          0 2017-02-20 21:17 hdfs://192.168.8.88:9000/tmp
-rw-r--r--   1 root supergroup         40 2017-02-20 21:15 hdfs://192.168.8.88:9000/wc
drwxr-xr-x   - root supergroup          0 2017-02-20 21:20 hdfs://192.168.8.88:9000/wcout
root@ubuntu:/finder# hadoop fs -get hdfs://192.168.8.88:9000/hadoop /finder/hadoop-x
root@ubuntu:/finder# ls /finder
hadoop  hadoop-x

以上我们演示了上传、下载并且查看文件

现在我们可以在节点管理UI中查看

我们可以UI查看管理和下载，以及可以看到分了哪些block（区块）

ubuntu上安装 hadoop的更多相关文章

OpenStack 对象存储 Swift 简单介绍

Swift最适合的就是永久类型的静态数据的长期存储。提供账号验证的节点被称为AccountServer。Swift中由Swauth提供账号权限认证服务。ProxyserveracceptsincomingrequestsviatheOpenStackObjectAPIorjustrawHTTP.Itacceptsfilestoupload,modificationstoMetadataorcontainercreation.Inaddition,itwillalsoservefilesorcontaine
使用 Swift语言进行 Hadoop 数据流应用程序开发

如果您发现了问题，或者希望为改进本文提供意见和建议，请在这里指出.在您开始之前，请参阅目前待解决的问题清单.简介本项目包括两类Hadoop流处理应用程序：映射器mapper和总结器reducer。如上所示，在Hadoop上编写流处理程序是一个很简单的工作，也不需要依赖于特定的软件体系。
Java API操作Hdfs的示例详解

这篇文章主要介绍了Java API操作Hdfs详细示例,遍历当前目录下所有文件与文件夹，可以使用listStatus方法实现上述需求，本文通过实例代码给大家介绍的非常详细，需要的朋友可以参考下
最新hadoop安装教程及hadoop的命令使用(亲测可用)

这篇文章主要介绍了最新hadoop安装教程(亲测可用),本文主要讲解了如何安装hadoop、使用hadoop的命令及遇到的问题解决，需要的朋友可以参考下
利用Java连接Hadoop进行编程

这篇文章主要介绍了利用Java连接Hadoop进行编程，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感兴趣的小伙伴可以参考一下
无法在Linux命令行中的hadoop中使用正则表达式

我有一个文件夹，其中包含大量日期为2018年的子文件夹。在我的HDFS中，我创建了一个仅包含12月日期的文件夹，我需要删除21-25天。我将此文件夹从HDFS复制到docker容器中，并在其工作正常的文件夹中使用命令rm-r*[21-25]。但是，当我运行适用于hdfshdfsdfs–rm-r/home/cloudera/logs/2018-Dec/*[21-25]的相同命令时，它会给我一个错误“rm:`/home/cloudera/logs/2018Dec/*[21-25]'：没有这样的文件或目录。”。
Windows中的Nutch：无法设置路径的权限

我正在尝试在Windows机器上使用Nutch使用Solr,我收到以下错误：从我学到的很多线程中,nutch似乎使用了hadoop做了一些chmod魔法,它可以在unix机器上运行,但不能在windows上使用.这个问题现在存在一年多了.我找到了一个线程,其中显示了代码行并提出了修复.我真的只有一个有这个问题吗？是否所有其他人都在创建自定义构建以便在Windows上运行nutch？也许是另一个爬行器而不是nutch？
在Windows上安装和运行hadoop 2.2的文档

使用最新版本的Hadoop2.2,我发现该发行说明提到该版本在Windows上运行Hadoop方面有重大改进.我昨天下载了Hadoop2.2,我看到很多带有.sh文件的.cmd文件,这确保了这个版本有脚本和批处理文件,可以在Windows环境下运行Hadoop.但是,在查看ApacheHadoop文档时,我找不到有关如何在Windows上安装和运行此新版本的任何分步说明.除此之外,看起来新版本中嵌入了YARN架构,在线教程中提供的旧配置可能已经过时,不再适用.Hadoop2.2是否有在线提供的良好文档？
Ubuntu系统如何卸载并安装新版本的jdk

刚刚接触Linux系统，软件的安装和卸载都不熟悉，装错了个jdk，发现连怎么卸载都不会。。。。
CentOS6.5下搭建Hadoop环境详细步骤

--zhang为主机名，也可以使用ip-->hdfs://zhang:9000fs.defaultFShadoop.tmp.dir/hadoop/temp/10.在$hadoop_home/etc/hadoop目录下执行命令vihdfs-site.xml编辑文件，内容如下：dfs.replication1dfs.name.dir/hadoop/hdfs/namedfs.data.dir/hadoop/hdfs/data11.在$HADOOP_HOME/etc/hadoop目录下查看是否有配置文件mapre

随机推荐

crontab发送一个月份的电子邮件

ubuntu14.04邮件服务器：Postfixroot收到来自crontab的十几封电子邮件.这些邮件包含PHP警告.>我已经解决了这些警告的原因.>我已修复每个cronjobs不发送电子邮件(输出发送到>/dev/null2>&1)>我删除了之前的所有电子邮件/var/mail/root/var/spool/mail/root但我仍然每小时收到十几封电子邮件.这些电子邮件来自cronjobs,
模拟两个ubuntu服务器计算机之间的慢速连接

我想模拟以下场景：假设我有4台ubuntu服务器机器A,B,C和D.我想在机器A和机器C之间减少20％的网络带宽,在A和B之间减少10％.使用网络模拟/限制工具来做到这一点？
ubuntu-12.04 – 如何在ubuntu 12.04中卸载从源安装的redis？

我从源代码在Ubuntu12.04上安装了redis-server.但在某些时候它无法完全安装,最后一次makeinstallcmd失败.然后我刚刚通过apt包安装.现在我很困惑哪个安装正在运行哪个conf文件？实际上我想卸载/删除通过源安装的所有内容,只是想安装一个包.转到源代码树并尝试以下命令：如果这不起作用,您可以列出软件自行安装所需的步骤：
ubuntu – “apt-get source”无法找到包但“apt-get install”和“apt-get cache”可以找到它

我正在尝试下载软件包的源代码,但是当我运行时它无法找到.但是当我运行apt-cache搜索squid3时,它会找到它.它也适用于apt-getinstallsquid3.我使用的是Ubuntu11.04服务器,这是我的/etc/apt/sources.list我已经多次更新了.我尝试了很多不同的debs,并没有发现任何其他地方的错误.这里的问题是你的二进制包(deb)与你的源包(deb-src)不
ubuntu – 有没有办法检测nginx何时完成正常关闭？

&&touchrestarted),因为即使Nginx没有完成其关闭,touch命令也会立即执行.有没有好办法呢？这样的事情怎么样？因此,pgrep将查找任何Nginx进程,而while循环将让它坐在那里直到它们全部消失.你可以改变一些有用的东西,比如睡1;/etc/init.d/Nginx停止,以便它会休眠一秒钟,然后尝试使用init.d脚本停止Nginx.你也可以在某处放置一个计数器,这样你就可以在需要太长时间时发出轰击信号.
ubuntu – 如何将所有外发电子邮件从postfix重定向到单个地址进行测试

我正在为基于Web的应用程序设置测试服务器,该应用程序发送一些电子邮件通知.有时候测试是使用真实的客户数据进行的,因此我需要保证服务器在我们测试时无法向真实客户发送电子邮件.我想要的是配置postfix,以便它接收任何外发电子邮件并将其重定向到一个电子邮件地址,而不是传递到真正的目的地.我正在运行ubuntu服务器9.10.先感谢您设置本地用户以接收所有被困邮件：你需要在main.cf中添加：然后
ubuntu – vagrant无法连接到虚拟框

当我使用基本的Vagrantfile,只配置了两条线：我看到我的虚拟框打开,但是我的流氓日志多次显示此行直到超时：然后,超时后的一段时间,虚拟框框终于要求我登录,但是太久了！所以我用流氓/流氓记录.然后在我的物理机器上,如果我“流氓ssh”.没有事情发生,直到：怎么了？
ubuntu – Nginx – 转发HTTP AUTH – 用户？

我和Nginx和Jenkins有些麻烦.我尝试使用Nginx作为Jenkins实例的反向代理,使用HTTP基本身份验证.它到目前为止工作,但我不知道如何传递带有AUTH用户名的标头？}尝试将此指令添加到您的位置块
Debian / Ubuntu – 删除后如何恢复/ var / cache / apt结构？

我在ubuntu服务器上的空间不足,所以我做了这个命令以节省空间但是现在在尝试使用apt时,我会收到以下错误：等等显然我删除了一些目录结构.有没有办法做apt-getrebuild-var-tree或类似的？
检查ubuntu上安装的rubygems版本？

如何查看我的ubuntu盒子上安装的rubygems版本？只是一个想法,列出已安装的软件包和grep为ruby或宝石或其他:)dpkg–get-selections