当将JSON文件读入Spark时,python – _corrupt_record错误

2019-06-05 原文

我有这个 JSON文件

{
    "a": 1,"b": 2
}

这是使用Python json.dump方法获得的.
现在,我想使用pyspark将此文件读入Spark中的DataFrame.以下文档,我在这样做

sc = SparkContext()

sqlc = sqlContext(sc)

df = sqlc.read.json(‘my_file.json’)

print df.show()

打印声明：

+---------------+
|_corrupt_record|
+---------------+
|              {|
|       "a": 1,|
|         "b": 2|
|              }|
+---------------+

任何人都知道发生了什么,为什么不正确地解释文件？

解决方法

您的输入文件中每行需要一个json对象,请参阅 http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReader.json

如果你的json文件看起来像这样,它会给你预期的数据帧：

{ "a": 1,"b": 2 }
{ "a": 3,"b": 4 }

....
df.show()
+---+---+
|  a|  b|
+---+---+
|  1|  2|
|  3|  4|
+---+---+

当将JSON文件读入Spark时,python – _corrupt_record错误的更多相关文章

pyspark自定义UDAF函数调用报错问题解决

这篇文章主要为大家介绍了pyspark自定义UDAF函数调用报错问题解决，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
尝试在同一pyspark结构化流作业中写入和读取增量表。可以&#39；看不到数据

PySpark作业是否可以在增量表中写入，并在同一代码中从该表中读取？使用以下命令运行代码时不会出错。我正在尝试将我要刷新到Kafka的数据可视化到Delta表中，以确保数据流动良好，底层组件也工作良好。即使向我的主题发送了流量，我也可以看到一个空表。任何形式的帮助都会有帮助。
regexp_extract返回不期望的结果

测试代码：返回：正如你从上面看到的，标题中的2个给出了错误的结果。1013BriarLane是正确的，因为它没有返回任何内容，因为1013不是年份这是我的代码：在标题子字符串中获取正确的年份
Delta Live表完全刷新时不允许架构更改

我有一个简单的DeltaLiveTables管道，它将多个csv文件从cloudFiles流式读取到发布到蜂巢元存储的Delta表中。我有两个要求使我的情况更加复杂/独特：由于csv文件的格式，我需要将skipRows参数用于autoLoader。这需要使用Databricks运行时的预览通道。source我需要将表columnMapping.mode属性设置为name，因为csv数据的列名中包含Delta/Parquet本机不允许的字符。一旦发生，即使在常规运行中，也会发生相同的错误。如有任何帮助，将不
在Spark Web UI中检查FAIR调度程序的池统计信息的位置

我看到我的Spark应用程序正在使用FAIR调度程序：但我无法确认它是否使用了我设置的两个池。下面是我在PySpark中实现的线程函数我以为“阶段”菜单应该显示游泳池信息，但我没有看到。这是否意味着游泳池设置不正确，还是我看错了地方？我在EMR6.9.0之上使用PySpark3.3.0
HashPartitioning数据帧以在PySpark中的连接期间实现联合分区

为了实现#2，我应该尝试通过对两个数据帧的键进行共同分区，尽可能减少混洗。为了改进我的加入，我首先对event_type进行过滤，以缩小两个数据帧上的数据范围。然后我在day和event_id上执行实际的连接。我读到repartition在指定的列上实现了哈希分区。我将数据帧保存到磁盘上，还包括一个partitionBy，以便在过滤/分组操作上获得更好的性能。我甚至不确定同时使用repartition和partitionBy是正确的方法。当我从磁盘重新读取拼花地板文件时，使用repartition()的初
Pyspark：异常：Java网关进程在发送驱动程序的端口号之前退出

但问题从未得到解决.请帮忙！
当将JSON文件读入Spark时,python – _corrupt_record错误

我有这个JSON文件这是使用Pythonjson.dump方法获得的.现在,我想使用pyspark将此文件读入Spark中的DataFrame.以下文档,我在这样做sc=SparkContext()sqlc=sqlContextdf=sqlc.read.jsonprintdf.show()打印声明：任何人都知道发生了什么,为什么不正确地解释文件？

随机推荐

js中‘!.’是什么意思
Vue如何指定不编译的文件夹和favicon.ico

这篇文章主要介绍了Vue如何指定不编译的文件夹和favicon.ico，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
基于JavaScript编写一个图片转PDF转换器

本文为大家介绍了一个简单的 JavaScript 项目，可以将图片转换为 PDF 文件。你可以从本地选择任何一张图片，只需点击一下即可将其转换为 PDF 文件，感兴趣的可以动手尝试一下
jquery点赞功能实现代码点个赞吧!

点赞功能很多地方都会出现，如何实现爱心点赞功能，这篇文章主要为大家详细介绍了jquery点赞功能实现代码，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
AngularJs上传前预览图片的实例代码

使用AngularJs进行开发，在项目中，经常会遇到上传图片后，需在一旁预览图片内容，怎么实现这样的功能呢？今天小编给大家分享AugularJs上传前预览图片的实现代码，需要的朋友参考下吧
JavaScript面向对象编程入门教程

这篇文章主要介绍了JavaScript面向对象编程的相关概念，例如类、对象、属性、方法等面向对象的术语，并以实例讲解各种术语的使用，非常好的一篇面向对象入门教程,其它语言也可以参考哦
jQuery中的通配符选择器使用总结

通配符在控制input标签时相当好用,这里简单进行了jQuery中的通配符选择器使用总结,需要的朋友可以参考下
javascript 动态调整图片尺寸实现代码

在自己的网站上更新文章时一个比较常见的问题是：文章插图太宽，使整个网页都变形了。如果对每个插图都先进行缩放再插入的话，太麻烦了。
jquery ajaxfileupload异步上传插件

这篇文章主要为大家详细介绍了jquery ajaxfileupload异步上传插件，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
React学习之受控组件与数据共享实例分析

这篇文章主要介绍了React学习之受控组件与数据共享,结合实例形式分析了React受控组件与组件间数据共享相关原理与使用技巧,需要的朋友可以参考下