在过去,我不得不处理大文件,大约在0.1-3GB范围内.并非所有“列”都需要,因此可以将剩余数据放入RAM中.
现在我必须使用1-20GB范围内的文件,它们可能会随着时间的推移而增长.这完全不同,因为您无法再将数据放入RAM中.

我的文件包含数百万个“条目”(我找到了一个包含30密耳条目的条目).入口包含大约10个“列”:一个字符串(50-1000个unicode字符)和几个数字.我必须按“列”对数据进行排序并显示它.对于用户而言,只有顶部条目(1-30%)是相关的,其余的是低质量数据.

所以,我需要一些关于朝哪个方向发展的建议.我绝对不希望将数据放入数据库中,因为它们很难为非计算机精通人员安装和配置.我喜欢提供一个单片程序.

显示数据并不困难.但排序……无需在RAM中加载数据,在常规PC(2-6GB RAM)上……将会耗费一些时间.

我看了一下MMF(内存映射文件),但Danny Thorpe的这篇文章表明它可能不合适:http://dannythorpe.com/2004/03/19/the-hidden-costs-of-memory-mapped-files/

所以,我在考虑只加载必须在ram中排序的列中的数据和指向“entry”的地址(到磁盘文件中)的指针.我对“列”进行排序,然后使用指针查找与每个列单元格对应的条目并恢复该条目. “恢复”将直接写入磁盘,因此不需要额外的RAM.

PS:我正在寻找一种适用于Lazarus和Delphi的解决方案,因为Lazarus(实际上是FPC)对Mac有64位支持. 64位表示可用RAM更多=排序更快.

解决方法

我认为一种方法是 Mergesort,这是一个很好的排序算法
内存有限的大量固定记录.

大概的概念:

>从输入文件中读取N行(允许您将行保留在内存中的值)
>对这些行进行排序,并将排序的行写入文件1
>重复下一行N行以获取文件2


>到达输入文件的末尾,您现在有M个文件(每个文件都已排序)
>将这些文件合并到一个文件中(您还必须按步骤执行此操作)

您还可以考虑基于嵌入式数据库的解决方案,例如Firebird embedded:它适用于Delphi / Windows,你只需在你的程序文件夹中添加一些DLL(我不确定Lazarus/OSX).

delphi – 排序20GB的数据的更多相关文章

  1. ios – 我在哪里可以找到用于创建IPad应用程序的Delphi资源?

    我之前一直在使用Delphi并且一直都是Windows家伙.我的妻子为我的生日买了一台新的iPad,我昨晚第一次使用它.哇!…

  2. ios – 按键键入字典的Swift排序数组,其中value是可选的AnyObject

    我正在直接从Parse中提取一系列字典并将它们显示在表格中.所以我真的很想处理我所掌握的数据结构.PFObject是[String:AnyObject?解决方法Swift无法比较任何两个对象.您必须先将它们转换为特定类型:如果有多个字典没有指定键的值,它们将被放置在结果数组的末尾,但它们的相对顺序是不确定的.

  3. 如何从命令行部署OSX或IOS Delphi项目?

    我正在使用像这样的脚本构建我的Delphi应用程序现在我想添加一个选项将应用程序部署到OSX系统修改这样的脚本,那么可以从命令行部署OSX或IOSDelphi项目吗?

  4. swift实现排序算法

    swift实现排序算法swift插入排序funcinsertionSort(){varx,y,key:Intfor(x=0;x-1;y--){if(key

  5. Swift 闭包排序算法

  6. 通过算法了解Swift 3—插入排序

    Insertionsort源自泊学IOS技法学习插入排序是最基础的排序算法之一。在理解插入排序的时候,要时刻记住一件事情:元素的操作永远只发生在相邻的两个元素之间。不用交换元素的插入排序方法除了使用remove&insert或swap之外,还有一种插入排序的手段。

  7. Swift 归并排序

    用Swift写的一个归并排序算法(递归法)从小到大排列。

  8. Swift性能:排序数组

    我正在Swift实现一个算法,注意到性能非常差。因此,问题:我们如何在不失去安全网的情况下在Swift中获得合理的性能?它应该比未优化的Swift慢得多。一些似乎严重破坏与Swift和数组索引。这里是一个在Swift的就地快速:和C一样:两者工作:两者都在同一个程序中调用。另一方面,两个编译器都设置为[-Ofast]Swift实际上至少执行,如果不是稍好于C.已经指出,[-Ofast]改变语言的语义,使其可能不安全。

  9. 出列排序

    继续执行一次第一步和第二步将第二大的元素移动到最后,最大的元素在第一的位置。执行第三步将最大的数移动到最后。这时数组的最后两位a[a.count-2]和a[a.count-1]是有序的。重复执行a.count-1次上面的操作,数组就可以完成排序。由打印结果可以看出,完美实现。这次练习的题目虽然对我们的操作做出了限制,但是我们也可以根据题目的限制知道我们能做什么。有了一个个的元素更方便我们相互组合实现题目的要求。

  10. Swift - 选择排序算法

    思想每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完。步骤找到第一小(大)的元素,放在第一个位置找到从第二个元素到末尾的元素中第二下(大)的元素,放入第二个位置以此类推代码结果特性时间复杂度:O(n^2)==n的平方稳定性:不稳定其他新blog地址www.livefor.cn

随机推荐

  1. delphi – 主窗口按进程名称处理

    DelphiXe,Win7x64如何从进程名称(exe文件的完整路径)获取主窗口句柄,或至少一个类或窗口名称(如果该进程只有一个窗口).例:解决方法我同意Petesh的说法,你需要枚举顶级窗口并检查创建它的进程的模块文件名.为了帮助您开始枚举顶级窗口,这是一个delphi实现.首先,当你回调给你时,你需要一些与EnumWindows方法通信的方式.为此声明一条记录,该记录将保存您要查找的模块的文件

  2. 如何在Delphi中纯粹通过RTTI信息(即不使用任何实际对象实例)获取TObjectList的子项类型?

    我正在使用RTTI实现用于流式传输任意Delphi对象的通用代码,并且为了使其工作(更具体地说,为了使加载部分工作),我需要以某种方式获得TObjectList的子项类型<T>不使用任何实际对象实例的字段.要求不使用任何实际对象实例的明显原因是,在从流加载对象的情况下(仅基于要加载的对象的类类型的知识),我将不会有任何实例在加载完成之前完全可用–我宁愿只能访问相关类的纯RTTI数据.我希望能

  3. inno-setup – Inno Setup – 安装程序背景图片

    图像作为安装程序背景如何用inno5.5.9做到这一点?

  4. inno-setup – Inno Setup – 如何添加多个arc文件进行解压缩?

    使用InnoSetup解压缩弧文件.我希望有可能解压缩多个arc文件以从组件选择中安装文件(例如).但仍然显示所有提取的整体进度条.这可能吗?的回答的修改预备是相同的,参考其他答案.在ExtractArc中,为要提取的每个存档调用AddArchive.

  5. delphi – 如何在DataSet的帮助下在TAdvStringGrid中显示数据库中的BLOB图像

    解决方法CreateBlobStream正在创建一个TStream对象,而不是TMemoryStream.由于您不想将JPG写入数据库,因此应使用bmRead而不是bmReadWrite.我不习惯sqlite,但你必须确保使用合适的二进制日期类型.为了确保存储的图像真的是JPG,您应该编写JPG以进行测试,例如:

  6. inno-setup – 在Inno Setup的Code部分下载程序后运行程序

    如何运行我通过Internet下载的应用程序,在代码部分中使用,并等待该应用程序完成运行.我有,使用InnoTools下载程序,下载这两个文件,我想,在第二个完成下载后运行该下载,或jdk-8u111-windows-x64.exe,然后继续安装.解决方法使用其他下载插件,而不是ITD(请参阅下面的原因).例如,InnoDownloadPlugin.当您包含idp.iss时,它定义了一个全局IDP

  7. progress-bar – Inno Setup Run部分的简单进度页面

    我的安装程序非常简单,它基本上是:>欢迎页面>进展页面>最终页面欢迎页面和最终页面是标准页面.在Progress页面,我正在静默安装一堆其他程序.实际的脚本是在[Run]部分中安装每个程序.问题是酒吧达到100%然后停留在那里.我只能更改消息文本.我想要实现的是使用Pascal脚本显示进度,例如:这样我就可以显示更准确的进度条.这就是我所拥有的:问题是,当我构建安装程序时,它不显示欢迎页面.我做错了什么?

  8. delphi – 如何使“显示/隐藏桌面图标”设置生效?

    下面的代码调用SHGetSetSettings函数来隐藏桌面图标但它只是从视图菜单中取消选中“显示桌面图标”.我打电话给SHChangeNotify;更新桌面,但这不起作用?解决方法isa,要刷新桌面,您可以将F5键发送到progman窗口隐藏桌面图标的另一种方法是再次显示

  9. inno-setup – Inno Setup – 避免显示子安装程序的文件名

    我试图使用InnoSetup–Howtohidecertainfilenameswhileinstalling?(FilenameLabel)的想法Theonlysuresolutionistoavoidinstallingthefiles,youdonotwanttoshow,usingthe[Files]section.Installthemusingacodeinstead.UsetheEx

  10. inno-setup – Inno Setup磁力链接下载实施

    我目前正在使用InnoDownloadPlugin为我的安装程序下载文件,这个问题最大的问题是faila正确下载文件.因为连接不良等诸多原因.我想添加一种替代方法来下载文件,因此用户可以选择是否需要常规方式或torrent方式.我知道我可以使用aria2c.exe应用程序(https://aria2.github.io/),有人可以帮我实现它的inno设置代码吗?我需要的是使用torrent(ar

返回
顶部