java – 如何使用spark来处理一系列hbase行？

2019-06-23 原文

我试图用HBase作为火花的数据源.所以第一步就是从HBase表创建一个RDD.由于Spark使用hadoop输入格式,我可以通过创建rdd http://www.vidyasource.com/blog/Programming/Scala/Java/Data/Hadoop/Analytics/2014/01/25/lighting-a-spark-with-hbase找到一种方法来使用所有行.但是如何创建一个范围扫描的RDD？

欢迎所有的建议.

解决方法

以下是使用Spark中的扫描的示例：

import java.io.{DataOutputStream,ByteArrayOutputStream}
import java.lang.String
import org.apache.hadoop.hbase.client.Scan
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Base64

def convertScanToString(scan: Scan): String = {
  val out: ByteArrayOutputStream = new ByteArrayOutputStream
  val dos: DataOutputStream = new DataOutputStream(out)
  scan.write(dos)
  Base64.encodeBytes(out.toByteArray)
}

val conf = HBaseConfiguration.create()
val scan = new Scan()
scan.setCaching(500)
scan.setCacheBlocks(false)
conf.set(TableInputFormat.INPUT_TABLE,"table_name")
conf.set(TableInputFormat.SCAN,convertScanToString(scan))
val rdd = sc.newAPIHadoopRDD(conf,classOf[TableInputFormat],classOf[ImmutableBytesWritable],classOf[Result])
rdd.count

您需要将相关的库添加到Spark类路径,并确保它们与您的Spark兼容.提示：您可以使用hbase classpath找到它们.

java – 如何使用spark来处理一系列hbase行？的更多相关文章

使用 Swift语言进行 Hadoop 数据流应用程序开发

如果您发现了问题，或者希望为改进本文提供意见和建议，请在这里指出.在您开始之前，请参阅目前待解决的问题清单.简介本项目包括两类Hadoop流处理应用程序：映射器mapper和总结器reducer。如上所示，在Hadoop上编写流处理程序是一个很简单的工作，也不需要依赖于特定的软件体系。
Android RxJava异步数据处理库使用详解

RxJava是一种异步数据处理库，也是一种扩展的观察者模式。对于Android开发者来说，使用RxJava时也会搭配RxAndroid，它是RxJava针对Android平台的一个扩展，用于Android 开发，它提供了响应式扩展组件，使用RxAndroid的调度器可以解决Android多线程问题
PHP数学运算与数据处理实例分析

这篇文章主要介绍了PHP数学运算与数据处理方法,结合实例形式分析了PHP的数据类型与基本数学运算方法,需要的朋友可以参考下
关于ajax的使用方法_例题、ajax的数据处理

下面小编就为大家带来一篇关于ajax的使用方法_例题、ajax的数据处理。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
python3使用mutagen进行音频元数据处理的方法

mutagen是一个处理音频元数据的python模块，支持多种音频格式，是一个纯粹的python库，仅依赖python标准库，可在Python 3.7及以上版本运行，支持Linux、Windows 和 macOS系统，这篇文章主要介绍了python3使用mutagen进行音频元数据处理,需要的朋友可以参考下
Python数据处理pandas读写操作IO工具CSV解析

这篇文章主要为大家介绍了Python pandas数据读写操作IO工具之CSV使用示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
python3线程池ThreadPoolExecutor处理csv文件数据

这篇文章主要为大家介绍了python3线程池ThreadPoolExecutor处理csv文件数据实现的实例过程，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
Numpy 数据处理 ndarray使用详解

这篇文章主要为大家介绍了Numpy 数据处理 ndarray使用详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
卡尔曼滤波数据处理技巧通俗理解及python实现

这篇文章主要为大家介绍了卡尔曼滤波数据处理技巧的通俗理解及python实现，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
Pandas数据处理加速技巧汇总

Pandas 处理数据的效率还是很优秀的，相对于大规模的数据集只要掌握好正确的方法，就能让在数据处理时间上节省很多很多的时间。本文为大家汇总了一些Pandas数据处理加速技巧，需要的可以参考一下

随机推荐

基于EJB技术的商务预订系统的开发

用EJB结构开发的应用程序是可伸缩的、事务型的、多用户安全的。总的来说，EJB是一个组件事务监控的标准服务器端的组件模型。基于EJB技术的系统结构模型EJB结构是一个服务端组件结构，是一个层次性结构，其结构模型如图1所示。图2：商务预订系统的构架EntityBean是为了现实世界的对象建造的模型，这些对象通常是数据库的一些持久记录。
Java利用POI实现导入导出Excel表格

这篇文章主要为大家详细介绍了Java利用POI实现导入导出Excel表格，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
Mybatis分页插件PageHelper手写实现示例

这篇文章主要为大家介绍了Mybatis分页插件PageHelper手写实现示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
(jsp/html)网页上嵌入播放器(常用播放器代码整理)

网页上嵌入播放器，只要在HTML上添加以上代码就OK了，下面整理了一些常用的播放器代码，总有一款适合你，感兴趣的朋友可以参考下哈，希望对你有所帮助
Java 阻塞队列BlockingQueue详解

本文详细介绍了BlockingQueue家庭中的所有成员，包括他们各自的功能以及常见使用场景,通过实例代码介绍了Java 阻塞队列BlockingQueue的相关知识，需要的朋友可以参考下
Java异常Exception详细讲解

异常就是不正常，比如当我们身体出现了异常我们会根据身体情况选择喝开水、吃药、看病、等异常处理方法。 java异常处理机制是我们java语言使用异常处理机制为程序提供了错误处理的能力，程序出现的错误，程序可以安全的退出，以保证程序正常的运行等
Java Bean 作用域及它的几种类型介绍

这篇文章主要介绍了Java Bean作用域及它的几种类型介绍，Spring框架作为一个管理Bean的IoC容器，那么Bean自然是Spring中的重要资源了，那Bean的作用域又是什么，接下来我们一起进入文章详细学习吧
面试突击之跨域问题的解决方案详解

跨域问题本质是浏览器的一种保护机制，它的初衷是为了保证用户的安全，防止恶意网站窃取数据。那怎么解决这个问题呢？接下来我们一起来看
Mybatis-Plus接口BaseMapper与Services使用详解

这篇文章主要为大家介绍了Mybatis-Plus接口BaseMapper与Services使用详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
mybatis-plus雪花算法增强idworker的实现

今天聊聊在mybatis-plus中引入分布式ID生成框架idworker，进一步增强实现生成分布式唯一ID,具有一定的参考价值，感兴趣的小伙伴们可以参考一下