我需要在R中将大数据帧写为 JSON.我正在使用rjson包.下面的方法很慢……
for (i in 1:nrow(df)) {
      write.table(toJSON(df[i,]),"[FILENAME]",row.names=FALSE,col.names=FALSE,quote=FALSE,append=TRUE)
    }

所以我尝试了这个:

write.table(toJSON(df),"FILENAME]",append=TRUE)

由于toJSON()无法处理长度非常长的字符串,因此会出现问题.所以我想一次写出我的数据表块.推荐的方法是什么?如果它涉及split()你能提供一些伪代码吗?

解决方法

这是一个很大的数据集
big = iris[rep(seq_len(nrow(iris)),1000),]

带有toJSON的for循环(df [i,])创建一个表示每行的键值对的平面文件,而toJSON(df)生成列向量;这些是非常不同的.我们的目标是相当于toJSON(df [i,但格式化为单个JSON字符串.

首先将大块放入列表列表lol中,每个内部元素命名(将因子变成一个字符,以免让json进一步混淆),所以lol看起来像list(big [1,],big [2],…)但每个元素都有名称.

big1 <- Map(function(x,nm) setNames(x,rep(nm,length(x))),big,names(big))
big1$Species <- as.character(big1$Species)
lol <- unname(do.call(Map,c(list,big1)))

然后我们使用rjson库和并行库提供的splitIndices(可能是生成拆分的其他方法)将其转换为json向量

chunks <- 10
json <- sapply(splitIndices(length(lol),chunks),function(idx) toJSON(lol[idx]))

我们几乎可以将json块写入文件,但它们并不完全合法 – 除了最后一个字符串应该以“,”结尾,但以“]”结尾,除了第一个之外的所有字符串都应该从零开始,但是而是以“[”开头.

substring(json[-length(json)],nchar(json)[-length(json)]) = ","
substring(json[-1],1,1) = ""

然后准备将这些文件写入文件

fl <- tempfile()
writeLines(json,fl)

结合,当然很多特殊情况下的柱式强制都是未处理的,

library(parallel)  ## just for splitIndices; no parallel processing here...
library(json)
fastJson <- function(df,fl,chunks=10) {
    df1 = Map(function(x,df,names(df))
    df1 <- lapply(df1,function(x) {
        if (is(x,"factor")) as.character(x) else x
    })
    lol = unname(do.call(Map,df1)))

    idx <- splitIndices(length(lol),chunks)
    json <- sapply(idx,function(i) toJSON(lol[i]))
    substring(json[-length(json)],nchar(json)[-length(json)]) <- ","
    substring(json[-1],1) <- ""
    writeLines(json,fl)
}

> fastJson(big,tempfile())
> system.time(fastJson(big,fl <- tempfile()))
   user  system elapsed 
  2.340   0.008   2.352 
 > system(sprintf("wc %s",fl))
     10      10 14458011 /tmp/RtmpjLEh5h/file3fa75d00a57c

相比之下,只需将子设置为大(无需解析为JSON或写入文件)需要很长时间:

> system.time(for (i in seq_len(nrow(big))) big[i,])
   user  system elapsed 
 57.632   0.088  57.835

打开此文件以追加,每行一次,与子设置相比不会花费太多时间

> system.time(for (i in seq_len(nrow(big))) { con <- file(fl,"a"); close(con) })
   user  system elapsed 
  2.320   0.580   2.919

在R中写出大数据帧作为json的最快方法是什么?的更多相关文章

  1. ios – .rangeOfString()与Swift中的开关

    我想检查我的输入是否有一个rangeOfString必须要检查很多不同的字符串.基本上这个if语句,但使用开关来检查不同字符串的大列表我试过这样做但是没有用.解决方法虽然其他答案可能是正确的,如果是一个更好的方式,你可以通过英雄滥用=运算符做这样的事情:Swift中的switch语句可以通过=运算符的重载来扩展.例如,这是有效的原因:是因为有一个=运算符的定义,它将任何类型的Comparable类

  2. php – 当我使用它时,为什么SimpleXML会将我的数组更改为数组的第一个元素?

    这是我的代码:输出:为什么它只输出[0]而不是整个数组?

  3. 使用jquery获取全屏模式到我的浏览器

    如何使用Javascript/JQuery代码进入全屏模式?目标是进入全屏模式,就像在浏览器中按F11,但是以编程方式。解决方法您可以使用没有jQuery的香草JavaScript激活全屏模式。有一点很重要,您只能在用户执行操作时请求全屏模式。

  4. 基于Cocos2d-x的英雄联盟皮肤选择菜单

    important;font-size:1em!important;min-height:inherit!important;color:black!important">);listener->onTouchEnded=CC_CALLBACK_2(LOLMenu::onTouchEnded,monospace!important;font-size:1em!important;min-height:inherit!important;color:black!important">);getEventdi

  5. 基于cocos2dx的英雄联盟皮肤选择菜单

    最终效果图英雄联盟皮肤选择设计说明实现目标所需要的动作移动(Moveto),伸缩(Scaleto),倾斜(OrbitCamera)实现目标所需要函数(这是一个数学函数)x/(x+a)其中a为常量,用来计算上面三个动作的值大小与原版Menu不同,大小不是全屏的,默认是屏幕的(2/3),可以通过setContentSize()函数设置_index变量将所有的菜单项平铺构成一个长方形,_index表示目

  6. cocos2dx3.2开发 RPG《Flighting》十三让英雄炫酷点—技能以及技能效果

    将技能之前,先看SkillMessage还记得XXXMessage是什么小编吧。对了,就是保存从excel表读取的数据的一种对象。SkillMessage的各个属性解释已经标出来了,相应的excel表自己构造就可以吧。现在大家应该可以看到技能框了第二步:技能的效果实现前面说了,每个英雄的每个技能都是不一样的,多姿多彩。前面的技能框已经帮我们触发了skill()接口了我们看看skill接口的实现SkillImp是什么小编?

  7. 在R中写出大数据帧作为json的最快方法是什么?

    我需要在R中将大数据帧写为JSON.我正在使用rjson包.下面的方法很慢……所以我尝试了这个:由于toJSON()无法处理长度非常长的字符串,因此会出现问题.所以我想一次写出我的数据表块.推荐的方法是什么?如果它涉及split()你能提供一些伪代码吗?

随机推荐

  1. js中‘!.’是什么意思

  2. Vue如何指定不编译的文件夹和favicon.ico

    这篇文章主要介绍了Vue如何指定不编译的文件夹和favicon.ico,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

  3. 基于JavaScript编写一个图片转PDF转换器

    本文为大家介绍了一个简单的 JavaScript 项目,可以将图片转换为 PDF 文件。你可以从本地选择任何一张图片,只需点击一下即可将其转换为 PDF 文件,感兴趣的可以动手尝试一下

  4. jquery点赞功能实现代码 点个赞吧!

    点赞功能很多地方都会出现,如何实现爱心点赞功能,这篇文章主要为大家详细介绍了jquery点赞功能实现代码,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

  5. AngularJs上传前预览图片的实例代码

    使用AngularJs进行开发,在项目中,经常会遇到上传图片后,需在一旁预览图片内容,怎么实现这样的功能呢?今天小编给大家分享AugularJs上传前预览图片的实现代码,需要的朋友参考下吧

  6. JavaScript面向对象编程入门教程

    这篇文章主要介绍了JavaScript面向对象编程的相关概念,例如类、对象、属性、方法等面向对象的术语,并以实例讲解各种术语的使用,非常好的一篇面向对象入门教程,其它语言也可以参考哦

  7. jQuery中的通配符选择器使用总结

    通配符在控制input标签时相当好用,这里简单进行了jQuery中的通配符选择器使用总结,需要的朋友可以参考下

  8. javascript 动态调整图片尺寸实现代码

    在自己的网站上更新文章时一个比较常见的问题是:文章插图太宽,使整个网页都变形了。如果对每个插图都先进行缩放再插入的话,太麻烦了。

  9. jquery ajaxfileupload异步上传插件

    这篇文章主要为大家详细介绍了jquery ajaxfileupload异步上传插件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

  10. React学习之受控组件与数据共享实例分析

    这篇文章主要介绍了React学习之受控组件与数据共享,结合实例形式分析了React受控组件与组件间数据共享相关原理与使用技巧,需要的朋友可以参考下

返回
顶部