1.什么是并行计算

传统并行计算:共享同一个数据,通过锁来控制数据的读写,难度大,容易导致死锁,拓展性差。但是是实时的,细颗粒度计算,计算密集型

Mapreduce:对机器的要求低,拓展性难,便宜,拓展性强,批处理场景,非实时,数据密集型(傻大)

map:分配工作任务给不同的人,并让其完成工作(工作相互独立,不互相为上下环节)

reduce:把不同的结果集合并 再加上分布式

2.现在mapreduce能做什么?

map:映射

1.如小写字母变成大写字母 map

2.把年龄小于16岁的都去掉 map

3.把美元变成人民币 y=x∗6.3y=x * 6.3y=x∗6.3 map

4.地址库的一个翻译:省市县 map

5.(只要是一些处理数据相关的,都应当是在map上)

reduce:做比较,工作整合,上下游

1.统计年薪最高的人 (一个组)key

2.按照男女计算平均年龄 (俩个组)key

3.排序 reduce

有些操作放在map、reduce里面都可以

a-------->a----->A

map--------- reduce ×

前提:尽量要减少数据的流动,reduce阶段数据越少越好,能在map做就在map做掉

数据SQL:

Select name ,age,gender from people where id =3

1.project(投射)map完成

Select name ,age,gender

2.filter(过滤)map完成

id=3

3.key(汇集)

如:Select avg(age),gender from peoplemap:age,gender ---project
key:gender(F,M) //分为man和female

reduce:按照key进行汇集 F(25,38,23),M(45,23)

reduce:avg

如:Select max(age),gender from people这里和上面差不多,但是就没有key了放在同一个地方

oss和hive的区别?

在文件系统上

实验部分:

1. 搭建各类环境

为了模拟真实情况,我这里搭建了分布式的hadoop集群,分别有三台机器。一台做master,一台做slave。

2. 搭建、配置zookeeper

3. 启动zookeeper

/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start

4. 安装配置java

5. 主从节点格式化

6. 启动集群

/usr/hadoop/hadoop-2.7.3/sbin/start-all.sh

7. 安装Scala

8. 启动spark集群

/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh

9. jps查看已经启动的

以上就是Mapreduce分布式并行编程的详细内容,更多关于Mapreduce分布式的资料请关注Devmax其它相关文章!

Mapreduce分布式并行编程的更多相关文章

  1. java SpringBoot 分布式事务的解决方案(JTA+Atomic+多数据源)

    这篇文章主要介绍了java SpringBoot 分布式事务的解决方案(JTA+Atomic+多数据源),文章围绕主题展开详细的内容介绍,具有一定的参考价值,感兴趣的小伙伴可以参考一下

  2. Spring Boot 集成Redisson实现分布式锁详细案例

    这篇文章主要介绍了Spring Boot 集成Redisson实现分布式锁详细案例,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的朋友可以参考一下

  3. VUE实现分布式医疗挂号系统预约挂号首页步骤详情

    这篇文章主要为大家介绍了VUE实现分布式医疗挂号系统预约挂号首页步骤详情,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  4. Mapreduce分布式并行编程

    这篇文章主要为大家介绍了Mapreduce分布式并行编程使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  5. VUE搭建分布式医疗挂号系统后台管理页面示例步骤

    这篇文章主要为大家介绍了分布式医疗挂号系统之搭建后台管理系统页面,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  6. SpringBoot 2.5.5整合轻量级的分布式日志标记追踪神器TLog的详细过程

    分布式追踪系统是一个最终的解决方案,如果您的公司已经上了分布式追踪系统,这篇文章主要介绍了SpringBoot 2.5.5整合轻量级的分布式日志标记追踪神器TLog,需要的朋友可以参考下

  7. Python 并行加速技巧分享

    这篇文章主要介绍了Python 并行加速技巧分享,文章围绕文章主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下

  8. VUE开发分布式医疗挂号系统的医院设置页面步骤

    这篇文章主要为大家介绍了VUE开发分布式医疗挂号系统的医院设置页面步骤,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  9. 详解express + mock让前后台并行开发

    这篇文章主要介绍了详解express + mock让前后台并行开发,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  10. 并行Stream与Spring事务相遇会发生什么?

    这篇文章主要介绍了并行Stream与Spring事务相遇会发生什么?文章主要解决实战中的Bug及解决方案和技术延伸,具有一定的参考价值,需要的小伙伴可以参考一下

随机推荐

  1. 基于EJB技术的商务预订系统的开发

    用EJB结构开发的应用程序是可伸缩的、事务型的、多用户安全的。总的来说,EJB是一个组件事务监控的标准服务器端的组件模型。基于EJB技术的系统结构模型EJB结构是一个服务端组件结构,是一个层次性结构,其结构模型如图1所示。图2:商务预订系统的构架EntityBean是为了现实世界的对象建造的模型,这些对象通常是数据库的一些持久记录。

  2. Java利用POI实现导入导出Excel表格

    这篇文章主要为大家详细介绍了Java利用POI实现导入导出Excel表格,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

  3. Mybatis分页插件PageHelper手写实现示例

    这篇文章主要为大家介绍了Mybatis分页插件PageHelper手写实现示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  4. (jsp/html)网页上嵌入播放器(常用播放器代码整理)

    网页上嵌入播放器,只要在HTML上添加以上代码就OK了,下面整理了一些常用的播放器代码,总有一款适合你,感兴趣的朋友可以参考下哈,希望对你有所帮助

  5. Java 阻塞队列BlockingQueue详解

    本文详细介绍了BlockingQueue家庭中的所有成员,包括他们各自的功能以及常见使用场景,通过实例代码介绍了Java 阻塞队列BlockingQueue的相关知识,需要的朋友可以参考下

  6. Java异常Exception详细讲解

    异常就是不正常,比如当我们身体出现了异常我们会根据身体情况选择喝开水、吃药、看病、等 异常处理方法。 java异常处理机制是我们java语言使用异常处理机制为程序提供了错误处理的能力,程序出现的错误,程序可以安全的退出,以保证程序正常的运行等

  7. Java Bean 作用域及它的几种类型介绍

    这篇文章主要介绍了Java Bean作用域及它的几种类型介绍,Spring框架作为一个管理Bean的IoC容器,那么Bean自然是Spring中的重要资源了,那Bean的作用域又是什么,接下来我们一起进入文章详细学习吧

  8. 面试突击之跨域问题的解决方案详解

    跨域问题本质是浏览器的一种保护机制,它的初衷是为了保证用户的安全,防止恶意网站窃取数据。那怎么解决这个问题呢?接下来我们一起来看

  9. Mybatis-Plus接口BaseMapper与Services使用详解

    这篇文章主要为大家介绍了Mybatis-Plus接口BaseMapper与Services使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  10. mybatis-plus雪花算法增强idworker的实现

    今天聊聊在mybatis-plus中引入分布式ID生成框架idworker,进一步增强实现生成分布式唯一ID,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

返回
顶部