我有这个
JSON文件
{
"a": 1,"b": 2
}
这是使用Python json.dump方法获得的.
现在,我想使用pyspark将此文件读入Spark中的DataFrame.以下文档,我在这样做
sc = SparkContext()
sqlc = sqlContext(sc)
df = sqlc.read.json(‘my_file.json’)
print df.show()
打印声明:
+---------------+
|_corrupt_record|
+---------------+
| {|
| "a": 1,|
| "b": 2|
| }|
+---------------+
任何人都知道发生了什么,为什么不正确地解释文件?
解决方法
您的输入文件中每行需要一个json对象,请参阅
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReader.json
如果你的json文件看起来像这样,它会给你预期的数据帧:
{ "a": 1,"b": 2 }
{ "a": 3,"b": 4 }
....
df.show()
+---+---+
| a| b|
+---+---+
| 1| 2|
| 3| 4|
+---+---+