Ubuntu远程执行Spark程序

2020-05-26 原文

Ubuntu远程执行Spark程序

有时候需要远程访问Spark集群，执行任务，或者远程将代码提交到Spark集群，本文尝试了Windows访问Spark集群，和Ubutnu访问Spark集群：

Ubuntu访问Spark集群
Windows访问Spark集群

Spark程序

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
//原文链接：http://www.jianshu.com/p/a617005df355
public class Test1 {
    public static String USER="yancy";
    public static void main(String[] args) {
        // Todo Auto-generated method stub
        // 以下构造sc对象的构造方法各参数意义依次为：
        // Spark Master的地址；
        // App的名称；
        // HDFS文件的位置；
        String[] jars = {"/home/hadoop/workspace/Spark_test1/Spark_test1.jar"};
        String sparkuil = "spark://10.2.205.212:7077";
        SparkConf sparkConf = new SparkConf().setMaster(sparkuil).setAppName("JavaWordCount");
        sparkConf.setJars(jars);//将jar包分发到集群中，本程序中可
        //以不用，但是对于集群程序需要用到，才能远程执行，
        //这与Hadoop的方法很像
        JavaSparkContext sc = new JavaSparkContext(sparkConf);
        System.out.println(sc);  
        String file = "hdfs://10.2.205.212:9000/1/JavaWordCount.txt";
        JavaRDD<String> data = sc.textFile(file).cache();
        long num = data.count();
        System.out.println("This number is very long .........................................................." + num); 
    }

}

Ubuntu访问Spark集群（正确的）

这里首先是配置，Spark集群的配置可以查看其它的资源，但是远程节点的Ubuntu主机也安装了Spark，和集群所用安装包一样。
Spark版本为spark-1.5.1-bin-hadoop1.tgz,Hadoop版本为1.1.2
但是远程Ubuntu主机上并没有配置Spark环境变量。
Eclipse版本为  Mars.2 Release (4.5.2)
Java版本为： JDK1.7.0._80
在Eclipse上新建Java application，这里没有创建Maven，因为觉得暂时没必要太复杂，因为Spark程序可能要集成到我的Web 后台中，所以只用了简单的方式。

Win7访问Spark集群（没成功）

windows下同样使用Mars版本的Eclipse创建Java项目访问Spark集群，但是只能连接到Spark集群，就是代码的System.out.println(sc)能够输出，但是到下一步后就会报错，无法读取HDFS文件。尽管我尝试了增加JAVA内存但是还是不行。现在看来，应该是因为Win7上没有安装Spark的原因，暂时先不深究。

16/11/12 10:32:30 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://driverPropsFetcher@10.2.205.206:34787]
16/11/12 10:32:30 INFO Utils: Successfully started service 'driverPropsFetcher' on port 34787.
16/11/12 10:32:32 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkDriver@169.254.217.235:65210] has Failed,address is Now gated for [5000] ms. Reason is: [Association Failed with [akka.tcp://sparkDriver@169.254.217.235:65210]].
Exception in thread "main" akka.actor.ActorNotFound: Actor not found for: ActorSelection[Anchor(akka.tcp://sparkDriver@169.254.217.235:65210/),Path(/user/CoarseGrainedScheduler)]

Ubuntu远程执行Spark程序的更多相关文章

OpenStack 对象存储 Swift 简单介绍

Swift最适合的就是永久类型的静态数据的长期存储。提供账号验证的节点被称为AccountServer。Swift中由Swauth提供账号权限认证服务。ProxyserveracceptsincomingrequestsviatheOpenStackObjectAPIorjustrawHTTP.Itacceptsfilestoupload,modificationstoMetadataorcontainercreation.Inaddition,itwillalsoservefilesorcontaine
Java API操作Hdfs的示例详解

这篇文章主要介绍了Java API操作Hdfs详细示例,遍历当前目录下所有文件与文件夹，可以使用listStatus方法实现上述需求，本文通过实例代码给大家介绍的非常详细，需要的朋友可以参考下
无法在Linux命令行中的hadoop中使用正则表达式

我有一个文件夹，其中包含大量日期为2018年的子文件夹。在我的HDFS中，我创建了一个仅包含12月日期的文件夹，我需要删除21-25天。我将此文件夹从HDFS复制到docker容器中，并在其工作正常的文件夹中使用命令rm-r*[21-25]。但是，当我运行适用于hdfshdfsdfs–rm-r/home/cloudera/logs/2018-Dec/*[21-25]的相同命令时，它会给我一个错误“rm:`/home/cloudera/logs/2018Dec/*[21-25]'：没有这样的文件或目录。”。
Ubuntu16.04下安装Hadoop2.7.4伪分布式环境

按ctrl+alt+t打开终端窗口，执行如下命令：3.安装ssh并设置ssh免密登陆注意：每次配置时，需要注意当前目录为hadoop。Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中，伪分布式需要修改2个配置文件core-site.xml和hdfs-site.xml。Hadoop的配置文件是xml格式，每个配置以声明property的name和value的方式来实现。MapReduce配置在hadoop用户下，先用sshlocalhost，然后格式化hdfs:显示格式
Ubuntu安装Spark

安装Python$sudoapt-getinstallpython3安装完毕后，使用如下命令查看python3的具体版本：$/usr/bin/python3-VPython3.5.2安装scala：$sudoapt-getinstallscalascala-docscala-library查看安装的scala的版本信息：$scala-versionScalacoderunnerversion2.1
Ubuntu-14.04.5搭建Hadoop-2.9.0分布式集群环境

必须安装并且保证sshd一直运行，以便用Hadoop脚本管理远端Hadoop守护进程。
ubuntu16.04 安装单机Hadoop&HIVE

这样客户端可以通过8020端口来连接namenode服务，hdfs的守护进程也会通过该属性确定主机和端口第一个参数配置为副本数，由于是单机，先为1，默认应该是3，但是我们是伪分布式，设置为3会在block做副本的时候报错，就是说无法将某块复制到3个datanode上。
基于CentOS的Hadoop和Spark分布式集群搭建过程

IP地址：192.168.106.128（主节点）；192.168.106.129（从节点）；192.168.106.130（从节点）。
Ubuntu下Spark单机版Standalone安装

选择完毕，点击>DownloadSpark
centos7.2(linux)+spark2.1.0安装

介绍下spark在Linux上的安装.操作系统是centos,centos其实是纯净版的Linux.(1)版本spark版本选2.x以上.2.1.0是去年中旬刚出来的.centos7.264(2)下载spark下载地址,百度.(3)安装解压,放到/usr路径下,本人的是:配置spark安装路径,打开.bash_profile.这个文件里面要预先配置javapath.回到spark目录,spark-

随机推荐

crontab发送一个月份的电子邮件

ubuntu14.04邮件服务器：Postfixroot收到来自crontab的十几封电子邮件.这些邮件包含PHP警告.>我已经解决了这些警告的原因.>我已修复每个cronjobs不发送电子邮件(输出发送到>/dev/null2>&1)>我删除了之前的所有电子邮件/var/mail/root/var/spool/mail/root但我仍然每小时收到十几封电子邮件.这些电子邮件来自cronjobs,
模拟两个ubuntu服务器计算机之间的慢速连接

我想模拟以下场景：假设我有4台ubuntu服务器机器A,B,C和D.我想在机器A和机器C之间减少20％的网络带宽,在A和B之间减少10％.使用网络模拟/限制工具来做到这一点？
ubuntu-12.04 – 如何在ubuntu 12.04中卸载从源安装的redis？

我从源代码在Ubuntu12.04上安装了redis-server.但在某些时候它无法完全安装,最后一次makeinstallcmd失败.然后我刚刚通过apt包安装.现在我很困惑哪个安装正在运行哪个conf文件？实际上我想卸载/删除通过源安装的所有内容,只是想安装一个包.转到源代码树并尝试以下命令：如果这不起作用,您可以列出软件自行安装所需的步骤：
ubuntu – “apt-get source”无法找到包但“apt-get install”和“apt-get cache”可以找到它

我正在尝试下载软件包的源代码,但是当我运行时它无法找到.但是当我运行apt-cache搜索squid3时,它会找到它.它也适用于apt-getinstallsquid3.我使用的是Ubuntu11.04服务器,这是我的/etc/apt/sources.list我已经多次更新了.我尝试了很多不同的debs,并没有发现任何其他地方的错误.这里的问题是你的二进制包(deb)与你的源包(deb-src)不
ubuntu – 有没有办法检测nginx何时完成正常关闭？

&&touchrestarted),因为即使Nginx没有完成其关闭,touch命令也会立即执行.有没有好办法呢？这样的事情怎么样？因此,pgrep将查找任何Nginx进程,而while循环将让它坐在那里直到它们全部消失.你可以改变一些有用的东西,比如睡1;/etc/init.d/Nginx停止,以便它会休眠一秒钟,然后尝试使用init.d脚本停止Nginx.你也可以在某处放置一个计数器,这样你就可以在需要太长时间时发出轰击信号.
ubuntu – 如何将所有外发电子邮件从postfix重定向到单个地址进行测试

我正在为基于Web的应用程序设置测试服务器,该应用程序发送一些电子邮件通知.有时候测试是使用真实的客户数据进行的,因此我需要保证服务器在我们测试时无法向真实客户发送电子邮件.我想要的是配置postfix,以便它接收任何外发电子邮件并将其重定向到一个电子邮件地址,而不是传递到真正的目的地.我正在运行ubuntu服务器9.10.先感谢您设置本地用户以接收所有被困邮件：你需要在main.cf中添加：然后
ubuntu – vagrant无法连接到虚拟框

当我使用基本的Vagrantfile,只配置了两条线：我看到我的虚拟框打开,但是我的流氓日志多次显示此行直到超时：然后,超时后的一段时间,虚拟框框终于要求我登录,但是太久了！所以我用流氓/流氓记录.然后在我的物理机器上,如果我“流氓ssh”.没有事情发生,直到：怎么了？
ubuntu – Nginx – 转发HTTP AUTH – 用户？

我和Nginx和Jenkins有些麻烦.我尝试使用Nginx作为Jenkins实例的反向代理,使用HTTP基本身份验证.它到目前为止工作,但我不知道如何传递带有AUTH用户名的标头？}尝试将此指令添加到您的位置块
Debian / Ubuntu – 删除后如何恢复/ var / cache / apt结构？

我在ubuntu服务器上的空间不足,所以我做了这个命令以节省空间但是现在在尝试使用apt时,我会收到以下错误：等等显然我删除了一些目录结构.有没有办法做apt-getrebuild-var-tree或类似的？
检查ubuntu上安装的rubygems版本？

如何查看我的ubuntu盒子上安装的rubygems版本？只是一个想法,列出已安装的软件包和grep为ruby或宝石或其他:)dpkg–get-selections