非常快的文本文件处理(C)

2019-12-31 原文

我写了一个在GPU上处理数据的应用程序.代码工作得很好,但我有一个问题,即输入文件(〜3GB,文本)的阅读部分是我的应用程序的瓶颈. (从HDD读取的速度很快,但逐行处理慢).

我使用getline()读取一行,并将第1行复制到一个向量,line2到一个向量,并跳过第3行和第4行.对于11条mio行的其余部分,我们依次类推.

我尝试了几种方法来尽可能地获取文件：

发现最快的方法是使用boost :: iostreams :: stream

其他的是：

>将文件读为gzip,以尽量减少IO,但是比直接慢
阅读它.
>通过读取将文件复制到ram(filepointer,chararray,length)
并用循环进行处理以区分行(也比boost更慢)

任何建议如何使其运行更快？

void readfastq(char *filename,int SRlength,uint32_t blocksize){
    _filelength = 0; //total datasets (each 4 lines)
    _SRlength = SRlength; //length of the 2. line
    _blocksize = blocksize;

    boost::iostreams::stream<boost::iostreams::file_source>ins(filename);
    in = ins;

    readNextBlock();
}


void readNextBlock() {
    timeval start,end;
    gettimeofday(&start,0);

    string name;
    string seqtemp;
    string garbage;
    string phredtemp;

    _seqs.empty();
    _phred.empty();
    _names.empty();
    _filelength = 0;

            //read only a part of the file i.e the first 4mio lines
    while (std::getline(in,name) && _filelength<_blocksize) {
        std::getline(in,seqtemp);
        std::getline(in,garbage);
        std::getline(in,phredtemp);

        if (seqtemp.size() != _SRlength) {
            if (seqtemp.size() != 0)
                printf("Error on read in fastq: size is invalid\n");
        } else {
            _names.push_back(name);

            for (int k = 0; k < _SRlength; k++) {

                //handle special letters
                                    if(seqtemp[k]== 'A') ...
                                    else{
                _seqs.push_back(5);
                                    }

            }
            _filelength++;
        }
    }

编辑：

源文件可在https://docs.google.com/open?id=0B5bvyb427McSMjM2YWQwM2YtZGU2Mi00OGVmLThkODAtYzJhODIzYjNhYTY2下载

由于某些指针问题,我更改了readfastq函数来读取文件.所以如果你调用readfastq,blocksize(行)必须大于要读取的行数.

解：

我找到了一个解决方案,它可以从60秒到16秒的时间读取文件.我删除了内在循环,该循环可以处理特殊字符,并在GPU中执行此操作.这降低了读入时间,只有最小的GPU运行时间增加.

感谢您的建议

void readfastq(char *filename,int SRlength) {
    _filelength = 0;
    _SRlength = SRlength;

    size_t bytes_read,bytes_expected;

    FILE *fp;
    fp = fopen(filename,"r");

    fseek(fp,0L,SEEK_END); //go to the end of file
    bytes_expected = ftell(fp); //get filesize
    fseek(fp,SEEK_SET); //go to the begining of the file

    fclose(fp);

    if ((_seqarray = (char *) malloc(bytes_expected/2)) == NULL) //allocate space for file
        err(EX_OSERR,"data malloc");


    string name;
    string seqtemp;
    string garbage;
    string phredtemp;

    boost::iostreams::stream<boost::iostreams::file_source>file(filename);


    while (std::getline(file,name)) {
        std::getline(file,seqtemp);
        std::getline(file,garbage);
        std::getline(file,phredtemp);

        if (seqtemp.size() != SRlength) {
            if (seqtemp.size() != 0)
                printf("Error on read in fastq: size is invalid\n");
        } else {
            _names.push_back(name);

            strncpy( &(_seqarray[SRlength*_filelength]),seqtemp.c_str(),seqtemp.length()); //do not handle special letters here,do on GPU

            _filelength++;
        }
    }
}

解决方法

首先,不要将文件读入内存,您可以使用文件映射.您只需要将程序构建为64位,以适应3GB的虚拟地址空间(对于32位应用程序,只有2GB可在用户模式下访问).或者你可以映射&按部件处理您的文件.

接下来,对我来说,你的瓶颈是“将一行复制到一个向量”.处理向量涉及到动态内存分配(堆操作),这在一个关键循环中非常重视性能.如果是这种情况 – 要么避免使用向量,要么确保它们被声明在循环之外.后者有助于因为当您重新分配/清除向量时,它们不会释放内存.

发布您的代码(或其一部分)以获得更多建议.

编辑：

似乎所有的瓶颈都与字符串管理有关.

> std :: getline(in,seqtemp);读入std :: string处理动态内存分配.
> _names.push_back(name);这更糟糕首先将std :: string按值放入向量中.意思是 – 字符串被复制,因此会发生另一个动态分配/释放.此外,当最终向量在内部被重新分配时 – 所有包含的字符串被再次复制,并带来所有后果.

我建议不要使用标准格式的文件I / O功能(Stdio / STL)和std :: string.为了获得更好的性能,您应该使用指向字符串的指针(而不是复制的字符串),如果您映射整个文件,这是可能的.此外,您必须实现文件解析(划分成行).

像这段代码一样：

class MemoryMappedFileParser
{
    const char* m_sz;
    size_t m_Len;

public:

    struct String {
        const char* m_sz;
        size_t m_Len;
    };

    bool getline(String& out)
    {
        out.m_sz = m_sz;

        const char* sz = (char*) memchr(m_sz,'\n',m_Len);
        if (sz)
        {
            size_t len = sz - m_sz;

            m_sz = sz + 1;
            m_Len -= (len + 1);

            out.m_Len = len;

            // for Windows-format text files remove the '\r' as well
            if (len && '\r' == out.m_sz[len-1])
                out.m_Len--;
        } else
        {
            out.m_Len = m_Len;

            if (!m_Len)
                return false;

            m_Len = 0;
        }

        return true;
    }

};

非常快的文本文件处理(C)的更多相关文章

ubuntu下JNI之HelloWorld相互传String值

2.编写java文件3、编译java文件生成class4、生成.h文件5、根据.h文件编写c代码6、如果配置了androidNDK的环境，可以用android,mk来编译生成so，从androidNDK的sample里找到一份Android.mk文件，与生成的JniTest.c代码放入jni文件夹下。
C使用getline()打印：释放的指针未在XCode中分配

我试图使用std：getline()但是得到一个奇怪的运行时错误：malloc:*errorforobject0x10000a720:pointerbeingfreedwasnotallocated*setabreakpointinmalloc_error_breaktodebug这是产生此错误的代码：在每个单词之前我得到这个错误.从评论看来,它似乎是一个OSX/XCode特定的错误.有什么提示吗
在缓冲中逐行读取大量文本文件

我需要从C盘中逐行读取巨大的35G文件.目前我以如下方式做：但是它给我大约2MB/秒的性能,尽管文件管理器以100Mb/s的速度复制文件.我猜getline()没有正确地进行缓冲.请提出一些缓冲的逐行阅读方法.UPD：process()不是瓶颈,没有process()的代码以相同的速度工作.解决方法使用标准的IO流,您将无法接近线速度.缓冲与否,几乎任何解析都将以数量级的速度杀死你的速度.我对由两
非常快的文本文件处理(C)

我写了一个在GPU上处理数据的应用程序.代码工作得很好,但我有一个问题,即输入文件(3GB,文本)的阅读部分是我的应用程序的瓶颈.(从HDD读取的速度很快,但逐行处理慢).我使用getline()读取一行,并将第1行复制到一个向量,line2到一个向量,并跳过第3行和第4行.对于11条mio行的其余部分,我们依次类推.我尝试了几种方法来尽可能地获取文件：发现最快的方法是使用boost::iostr
如何使用std :: getline()将文本文件读入C中的字符串数组？

读取文件的最常用方法是在按行读取时使用std::getline：或者只是使用>>运算符在阅读单词或提取具体类型时：以及动态分配的st样式的std::string对象数组：尽可能避免动态分配.相信我,你不想自己照顾内存管理.喜欢使用具有自动存储持续时间的对象.利用标准库提供的功能.正如已经指出的那样：使用STL容器,例如std::vector而不是C风格的数组：
c – Getline继续获取换行符.我怎么能避免这个？

以下是示例输入：输出应该是：解决方法你的cin>>N停在第一个非数字字符,即换行符.你有一条读取过去的getline,这很好.之后的每个附加getline都会读取整行,包括最后的换行符.通过输入第二个getline,你可以省略一半的输入.
c – getline的实现(istream&is,string&str)

我的问题很简单,getline是如何实现的？你如何解决像getline这样固定大小的char数组的问题？他们使用临时缓冲区和许多调用新char[length]或其他整洁的结构？解决方法getline以读取行的方式实现.它没有明确的实施;每个图书馆可能彼此不同.可能的实施：

随机推荐

从C到C#的zlib(如何将byte []转换为流并将流转换为byte [])

我的任务是使用zlib解压缩数据包(已接收),然后使用算法从数据中生成图片好消息是我在C中有代码,但任务是在C#中完成C我正在尝试使用zlib.NET,但所有演示都有该代码进行解压缩(C#)我的问题：我不想在解压缩后保存文件,因为我必须使用C代码中显示的算法.如何将byte[]数组转换为类似于C#zlib代码中的流来解压缩数据然后如何将流转换回字节数组？
为什么C标准使用不确定的变量未定义？

垃圾价值存储在哪里,为什么目的？解决方法由于效率原因,C选择不将变量初始化为某些自动值.为了初始化这些数据,必须添加指令.以下是一个例子：产生：虽然这段代码：产生：你可以看到,一个完整的额外的指令用来移动1到x.这对于嵌入式系统来说至关重要.
如何使用命名管道从c调用WCF方法？

更新：通过协议here,我无法弄清楚未知的信封记录.我在网上找不到任何例子.原版的：我有以下WCF服务我输出添加5行,所以我知道服务器是否处理了请求与否.我有一个.NET客户端,我曾经测试这一切,一切正常工作预期.现在我想为这个做一个非托管的C客户端.我想出了如何得到管道的名称,并写信给它.我从here下载了协议我可以写信给管道,但我看不懂.每当我尝试读取它,我得到一个ERROR_broKEN_P
“这”是否保证指向C中的对象的开始？

我想使用fwrite将一个对象写入顺序文件.班级就像当我将一个对象写入文件时.我正在游荡,我可以使用fwrite(this,sizeof(int),2,fo)写入前两个整数.问题是：这是否保证指向对象数据的开始,即使对象的最开始可能存在虚拟表.所以上面的操作是安全的.解决方法这提供了对象的地址,这不一定是第一个成员的地址.唯一的例外是所谓的标准布局类型.从C11标准：(9.2/20)Apointe
c – 编译单元之间共享的全局const对象

当我声明并初始化一个const对象时.两个cpp文件包含此标头.和当我构建解决方案时,没有链接错误,你会得到什么如果g_Const是一个非const基本类型！PrintInUnit1()和PrintInUnit2()表明在两个编译单元中有两个独立的“g_Const”具有不同的地址,为什么？
什么是C名称查找在这里？ (&GCC对吗？)

为什么在第三个变体找到func,但是在实例化的时候,原始变体中不合格查找找不到func？解决方法一般规则是,任何不在模板定义上下文中的内容只能通过ADL来获取.换句话说,正常的不合格查找仅在模板定义上下文中执行.因为在定义中间语句时没有声明func,并且func不在与ns::type相关联的命名空间中,所以代码形式不正确.
c – 在输出参数中使用auto

有没有办法在这种情况下使用auto关键字：当然,不可能知道什么类型的.因此,解决方案应该是以某种方式将它们合并为一个句子.这可用吗？解决方法看起来您希望默认初始化给定函数期望作为参数的类型的对象.您无法使用auto执行此操作,但您可以编写一个特征来提取函数所需的类型,然后使用它来声明您的变量：然后你就像这样使用它：当然,只要你重载函数,这一切都会失败.
在C中说“推动一切浮动”的确定性方式

鉴于我更喜欢将程序中的数字保留为int或任何内容,那么使用这些数字的浮点数等效的任意算术最方便的方法是什么？说,我有我想写通过将转换放在解析的运算符树叶中,无需将表达式转化为混乱是否可以使用C风格的宏？应该用新的类和重载操作符完成吗？解决方法这是一个非常复杂的表达.更好地给它一个名字：现在当您使用整数参数调用它时,由于参数的类型为double,因此使用常规的算术转换将参数转换为double用C11lambda……
objective-c – 如何获取未知大小的NSArray的第一个X元素？

在objectiveC中,我有一个NSArray,我们称之为NSArray*largeArray,我想要获得一个新的NSArray*smallArray,只有第一个x对象…
c – Setprecision是混乱

我只是想问一下setprecision,因为我有点困惑.这里是代码：其中x=以下：方程的左边是x的值.1.105=1.10应为1.111.115=1.11应为1.121.125=1.12应为1.131.135=1.14是正确的1.145=1.15也正确但如果x是：2.115=2.12是正确的2.125=2.12应为2.13所以为什么在一定的价值是正确的,但有时是错误的？请启发我谢谢解决方法没有理由期望使用浮点系统可以正确地表示您的帖子中的任何常量.因此,一旦将它们存储在一个双变量中,那么你所拥有的确切的一