我一直在尝试编写一些代码来使用MapReduce查找数字的平均值.

我试图使用全局计数器来达到我的目标,但我无法在我的Mapper的map方法中设置计数器值,我也无法在Reducer的reduce方法中检索计数器值.

我是否必须在地图中使用全局计数器(例如,通过使用提供的Reporter的incrCounter(密钥,金额))?或者你会建议任何不同的逻辑来获得一些数字的平均值?

解决方法

逻辑非常简单:
如果所有数字都具有相同的密钥,则映射器会发送您想要查找具有相同密钥的平均值的所有值.因此,在reducer中可以对迭代器中的值求和.然后,您可以在迭代器工作的时间数上保留一个计数器,这可以解决平均项数的问题.最后,在迭代器之后,您可以通过将总和除以项目数来找到平均值.

注意,如果将combiner类设置为与reducer相同的类,则此逻辑将不起作用…

java – 使用MapReduce查找数字的平均值的更多相关文章

  1. Mapreduce分布式并行编程

    这篇文章主要为大家介绍了Mapreduce分布式并行编程使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  2. JavaScript mapreduce工作原理简析

    MapReduce是一个编程模型,用于作业调度,也是一个处理和生成超大数据集的算法模型的相关实现,本文将详细介绍JavaScript mapreduce工作原理,需要的朋友可以参考下

  3. Python使用MapReduce编程模型统计销量

    MapReduce是面向大数据并行处理的计算模型、框架和平台,是一种计算引擎,可以把我们对大批量数据的计算通过抽象成map与reduce两个子任务进行计算从而更快的得到想要的结果

  4. Ubuntu-14.04.5搭建Hadoop-2.9.0分布式集群环境

    必须安装并且保证sshd一直运行,以便用Hadoop脚本管理远端Hadoop守护进程。

  5. CentOS-6.4下安装hadoop2.7.3

    创建下面几个文件夹,分别用来存放数据,name信息,临时文件1.修改配置文件hadoop-env.sh,yarn-env.shcd/hadoop/hadoop/etc/hadoophadoop-env.sh,yarn-env.sh主要修改JAVA_HOME环境变量,其实如果你在profile文件里面已经添加了JAVA_HOME,就不需要修改了.2.修改配置文件slavesslaves配置文件修改datanode的主机:3.修改配置文件core-site.xml$catcoresitexml

  6. CentOS安装Hadoop

    本文记录一下在CentOS6.7上,安装Hadoop-2.7.3版本的过程。安装Hadoop主要包含如下几个部分:安装JDK安装Hadoop配置Hadoop启动Hadoop验证Hadoop安装JDK安装JDK可以参考如下博文,这里就不再重复描述。CentOS上安裝JDK安装Hadoop创建hadoop账户为hadoop用户配置SSHKEY。配置好相关的环境变量后,进入到/etc/hadoop目录下,修改相关配置文件的信息。start-yarn.sh同样,使用start-yarn.sh命令启动时,需要输入r

  7. Centos6.5 64位 安装Hadoop2.7.0, MapReduce日志分析, Hive2.1.0, JDBC连接Hive查询 (2)

    第二篇MapReduce日志分析做日志分析之前,我觉得要先了解下MapReduce,网上很多,你可以搜下,这位哥们讲的还不错点击打开链接日志长这样的:分别是:时间请求方式IP请求地址参数返回值每天产生一个,分别已Y-m-d.PHP方式命名.达到的目的是:统计每天每个接口的请求次数,以返回结果分组,编写程序然后将程序打jar包:LogMapReduce.jar打包时注意选择Mainclass,这时候

  8. Centos6.5 64位 安装Hadoop2.7.0, MapReduce日志分析, Hive2.1.0, JDBC连接Hive查询 (3)

    第三篇Hive2.1.0安装这位哥们写的挺好,跟2.1.0安装差不多http://aperise.iteye.com/blog/2275507需要注意的是,如果要使用jdbc自定义验证方式,需要加两个地方1是hadoop的core-site.xml,需要加入配置2是hive-site.xml/home/hive/apache-hive-2.1.0-bin/conf/user.password.co

  9. Centos6.5 64位 安装Hadoop2.7.0, MapReduce日志分析, Hive2.1.0, JDBC连接Hive查询 (4)

    第四篇JDBC连接Hive查询jdbc连接hive查询,要做以下几个事情,前面也曾提到:1在hadoop的core-site.xml中增加配置2让hive支持自定义验证http://www.jb51.cc/article/p-evbqggss-bhy.html3编写测试程序运行:

  10. Centos6.5 64位 安装Hadoop2.7.0, MapReduce日志分析, Hive2.1.0, JDBC连接Hive查询 (1)

    文章分为四篇,1是安装Hadoop,2MapReduce日志分析样例,3安装Hive,4JDBC连接Hive查询数据.第一篇Hadoop安装Hadoop安装,网上的例子很多,本人也是根据网上的步骤一步一步的执行,安装完成后,运行WordCount.jar时发现,从hadoop官网下的是32位,没有编译好的64的,于是想自己编译下64位的,本人费尽周折,在公司以及在家的电脑上折腾了好久,编译无法通过

随机推荐

  1. 基于EJB技术的商务预订系统的开发

    用EJB结构开发的应用程序是可伸缩的、事务型的、多用户安全的。总的来说,EJB是一个组件事务监控的标准服务器端的组件模型。基于EJB技术的系统结构模型EJB结构是一个服务端组件结构,是一个层次性结构,其结构模型如图1所示。图2:商务预订系统的构架EntityBean是为了现实世界的对象建造的模型,这些对象通常是数据库的一些持久记录。

  2. Java利用POI实现导入导出Excel表格

    这篇文章主要为大家详细介绍了Java利用POI实现导入导出Excel表格,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

  3. Mybatis分页插件PageHelper手写实现示例

    这篇文章主要为大家介绍了Mybatis分页插件PageHelper手写实现示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  4. (jsp/html)网页上嵌入播放器(常用播放器代码整理)

    网页上嵌入播放器,只要在HTML上添加以上代码就OK了,下面整理了一些常用的播放器代码,总有一款适合你,感兴趣的朋友可以参考下哈,希望对你有所帮助

  5. Java 阻塞队列BlockingQueue详解

    本文详细介绍了BlockingQueue家庭中的所有成员,包括他们各自的功能以及常见使用场景,通过实例代码介绍了Java 阻塞队列BlockingQueue的相关知识,需要的朋友可以参考下

  6. Java异常Exception详细讲解

    异常就是不正常,比如当我们身体出现了异常我们会根据身体情况选择喝开水、吃药、看病、等 异常处理方法。 java异常处理机制是我们java语言使用异常处理机制为程序提供了错误处理的能力,程序出现的错误,程序可以安全的退出,以保证程序正常的运行等

  7. Java Bean 作用域及它的几种类型介绍

    这篇文章主要介绍了Java Bean作用域及它的几种类型介绍,Spring框架作为一个管理Bean的IoC容器,那么Bean自然是Spring中的重要资源了,那Bean的作用域又是什么,接下来我们一起进入文章详细学习吧

  8. 面试突击之跨域问题的解决方案详解

    跨域问题本质是浏览器的一种保护机制,它的初衷是为了保证用户的安全,防止恶意网站窃取数据。那怎么解决这个问题呢?接下来我们一起来看

  9. Mybatis-Plus接口BaseMapper与Services使用详解

    这篇文章主要为大家介绍了Mybatis-Plus接口BaseMapper与Services使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  10. mybatis-plus雪花算法增强idworker的实现

    今天聊聊在mybatis-plus中引入分布式ID生成框架idworker,进一步增强实现生成分布式唯一ID,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

返回
顶部