我需要从C盘中逐行读取巨大的35G文件.目前我以如下方式做:
ifstream infile("myfile.txt");
string line;
while (true) {
    if (!getline(infile,line)) break;
    long linepos = infile.tellg();
    process(line,linepos);
}

但是它给我大约2MB /秒的性能,尽管文件管理器以100Mb / s的速度复制文件.我猜getline()没有正确地进行缓冲.请提出一些缓冲的逐行阅读方法.

UPD:process()不是瓶颈,没有process()的代码以相同的速度工作.

解决方法

使用标准的IO流,您将无法接近线速度.缓冲与否,几乎任何解析都将以数量级的速度杀死你的速度.我对由两个int和一个双线(Ivy Bridge chip,SSD)组成的数据文件进行了实验:

> IO流以各种组合:〜10 MB / s.纯粹的解析(f>> i1> i2> d)比在一个字符串中的getline更快,后跟一个sstringstream解析.
>像fscanf这样的C文件操作得到约40 MB / s.
没有解析的getline:180 MB / s.
> fread:500-800 MB / s(取决于文件是否被操作系统缓存).

I / O不是瓶颈,解析是.换句话说,你的进程可能是你的慢点.

所以我写了一个并行解析器.它由任务组成(使用TBB管道):

>发现大块(一次一个这样的任务)
>重新布置块,使得一条线不在块之间分割(一次一个这样的任务)
>解析块(许多这样的任务)

我可以有无限的解析任务,因为我的数据无序.如果你不是,那么这可能不值得你.这种方法让我在一个4核IvyBridge芯片上大约100 MB / s.

在缓冲中逐行读取大量文本文件的更多相关文章

  1. ubuntu下JNI之HelloWorld相互传String值

    2.编写java文件3、编译java文件生成class4、生成.h文件5、根据.h文件编写c代码6、如果配置了androidNDK的环境,可以用android,mk来编译生成so,从androidNDK的sample里找到一份Android.mk文件,与生成的JniTest.c代码放入jni文件夹下。

  2. C使用getline()打印:释放的指针未在XCode中分配

    我试图使用std:getline()但是得到一个奇怪的运行时错误:malloc:*errorforobject0x10000a720:pointerbeingfreedwasnotallocated*setabreakpointinmalloc_error_breaktodebug这是产生此错误的代码:在每个单词之前我得到这个错误.从评论看来,它似乎是一个OSX/XCode特定的错误.有什么提示吗

  3. 在缓冲中逐行读取大量文本文件

    我需要从C盘中逐行读取巨大的35G文件.目前我以如下方式做:但是它给我大约2MB/秒的性能,尽管文件管理器以100Mb/s的速度复制文件.我猜getline()没有正确地进行缓冲.请提出一些缓冲的逐行阅读方法.UPD:process()不是瓶颈,没有process()的代码以相同的速度工作.解决方法使用标准的IO流,您将无法接近线速度.缓冲与否,几乎任何解析都将以数量级的速度杀死你的速度.我对由两

  4. 非常快的文本文件处理(C)

    我写了一个在GPU上处理数据的应用程序.代码工作得很好,但我有一个问题,即输入文件(3GB,文本)的阅读部分是我的应用程序的瓶颈.(从HDD读取的速度很快,但逐行处理慢).我使用getline()读取一行,并将第1行复制到一个向量,line2到一个向量,并跳过第3行和第4行.对于11条mio行的其余部分,我们依次类推.我尝试了几种方法来尽可能地获取文件:发现最快的方法是使用boost::iostr

  5. 如何使用std :: getline()将文本文件读入C中的字符串数组?

    读取文件的最常用方法是在按行读取时使用std::getline:或者只是使用>>运算符在阅读单词或提取具体类型时:以及动态分配的st样式的std::string对象数组:尽可能避免动态分配.相信我,你不想自己照顾内存管理.喜欢使用具有自动存储持续时间的对象.利用标准库提供的功能.正如已经指出的那样:使用STL容器,例如std::vector而不是C风格的数组:

  6. c – Getline继续获取换行符.我怎么能避免这个?

    以下是示例输入:输出应该是:解决方法你的cin>>N停在第一个非数字字符,即换行符.你有一条读取过去的getline,这很好.之后的每个附加getline都会读取整行,包括最后的换行符.通过输入第二个getline,你可以省略一半的输入.

  7. c – getline的实现(istream&is,string&str)

    我的问题很简单,getline是如何实现的?你如何解决像getline这样固定大小的char数组的问题?他们使用临时缓冲区和许多调用新char[length]或其他整洁的结构?解决方法getline以读取行的方式实现.它没有明确的实施;每个图书馆可能彼此不同.可能的实施:

随机推荐

  1. 从C到C#的zlib(如何将byte []转换为流并将流转换为byte [])

    我的任务是使用zlib解压缩数据包(已接收),然后使用算法从数据中生成图片好消息是我在C中有代码,但任务是在C#中完成C我正在尝试使用zlib.NET,但所有演示都有该代码进行解压缩(C#)我的问题:我不想在解压缩后保存文件,因为我必须使用C代码中显示的算法.如何将byte[]数组转换为类似于C#zlib代码中的流来解压缩数据然后如何将流转换回字节数组?

  2. 为什么C标准使用不确定的变量未定义?

    垃圾价值存储在哪里,为什么目的?解决方法由于效率原因,C选择不将变量初始化为某些自动值.为了初始化这些数据,必须添加指令.以下是一个例子:产生:虽然这段代码:产生:你可以看到,一个完整的额外的指令用来移动1到x.这对于嵌入式系统来说至关重要.

  3. 如何使用命名管道从c调用WCF方法?

    更新:通过协议here,我无法弄清楚未知的信封记录.我在网上找不到任何例子.原版的:我有以下WCF服务我输出添加5行,所以我知道服务器是否处理了请求与否.我有一个.NET客户端,我曾经测试这一切,一切正常工作预期.现在我想为这个做一个非托管的C客户端.我想出了如何得到管道的名称,并写信给它.我从here下载了协议我可以写信给管道,但我看不懂.每当我尝试读取它,我得到一个ERROR_broKEN_P

  4. “这”是否保证指向C中的对象的开始?

    我想使用fwrite将一个对象写入顺序文件.班级就像当我将一个对象写入文件时.我正在游荡,我可以使用fwrite(this,sizeof(int),2,fo)写入前两个整数.问题是:这是否保证指向对象数据的开始,即使对象的最开始可能存在虚拟表.所以上面的操作是安全的.解决方法这提供了对象的地址,这不一定是第一个成员的地址.唯一的例外是所谓的标准布局类型.从C11标准:(9.2/20)Apointe

  5. c – 编译单元之间共享的全局const对象

    当我声明并初始化一个const对象时.两个cpp文件包含此标头.和当我构建解决方案时,没有链接错误,你会得到什么如果g_Const是一个非const基本类型!PrintInUnit1()和PrintInUnit2()表明在两个编译单元中有两个独立的“g_Const”具有不同的地址,为什么?

  6. 什么是C名称查找在这里? (&GCC对吗?)

    为什么在第三个变体找到func,但是在实例化的时候,原始变体中不合格查找找不到func?解决方法一般规则是,任何不在模板定义上下文中的内容只能通过ADL来获取.换句话说,正常的不合格查找仅在模板定义上下文中执行.因为在定义中间语句时没有声明func,并且func不在与ns::type相关联的命名空间中,所以代码形式不正确.

  7. c – 在输出参数中使用auto

    有没有办法在这种情况下使用auto关键字:当然,不可能知道什么类型的.因此,解决方案应该是以某种方式将它们合并为一个句子.这可用吗?解决方法看起来您希望默认初始化给定函数期望作为参数的类型的对象.您无法使用auto执行此操作,但您可以编写一个特征来提取函数所需的类型,然后使用它来声明您的变量:然后你就像这样使用它:当然,只要你重载函数,这一切都会失败.

  8. 在C中说“推动一切浮动”的确定性方式

    鉴于我更喜欢将程序中的数字保留为int或任何内容,那么使用这些数字的浮点数等效的任意算术最方便的方法是什么?说,我有我想写通过将转换放在解析的运算符树叶中,无需将表达式转化为混乱是否可以使用C风格的宏?应该用新的类和重载操作符完成吗?解决方法这是一个非常复杂的表达.更好地给它一个名字:现在当您使用整数参数调用它时,由于参数的类型为double,因此使用常规的算术转换将参数转换为double用C11lambda……

  9. objective-c – 如何获取未知大小的NSArray的第一个X元素?

    在objectiveC中,我有一个NSArray,我们称之为NSArray*largeArray,我想要获得一个新的NSArray*smallArray,只有第一个x对象…

  10. c – Setprecision是混乱

    我只是想问一下setprecision,因为我有点困惑.这里是代码:其中x=以下:方程的左边是x的值.1.105=1.10应为1.111.115=1.11应为1.121.125=1.12应为1.131.135=1.14是正确的1.145=1.15也正确但如果x是:2.115=2.12是正确的2.125=2.12应为2.13所以为什么在一定的价值是正确的,但有时是错误的?请启发我谢谢解决方法没有理由期望使用浮点系统可以正确地表示您的帖子中的任何常量.因此,一旦将它们存储在一个双变量中,那么你所拥有的确切的一

返回
顶部