perl中非常庞大的assosiative数组

2019-07-23 原文

我需要将两个文件合并到一个新文件中.

两者有超过300百万个以管道分隔的记录,第一列为主键.行未排序.第二个文件可能有第一个文件没有的记录.

示例文件1：

1001234|X15X1211,J,S,12,15,100.05

示例文件2：

1231112|AJ32,18,JP     
1001234|AJ15,16,PP

输出：

1001234,X15X1211,100.05,AJ15,PP

我正在使用以下代码：

tie %hash_REP,'Tie::File::AsHash','rep.in',split => '\|'
my $counter=0;
while (($key,$val) = each %hash_REP) {
    if($counter==0) {
        print strftime "%a %b %e %H:%M:%s %Y",localtime;
    }
}

准备关联数组需要将近1个小时.
这真的很好还是真的很糟糕？
有没有更快的方法来处理关联数组中的这种大小的记录？
任何脚本语言的任何建议都会有所帮助.

谢谢,
尼丁T.

我也尝试过以下程序,walso花了1小时如下：

#!/usr/bin/perl
use POSIX qw(strftime);
my $Now_string = strftime "%a %b %e %H:%M:%s %Y",localtime;
print $Now_string . "\n";

my %hash;
open FILE,"APP.in" or die $!;
while (my $line = <FILE>) {
     chomp($line);
      my($key,$val) = split /\|/,$line;
      $hash{$key} = $val;
 }
 close FILE;

my $filename = 'report.txt';
open(my $fh,'>',$filename) or die "Could not open file '$filename' $!";
open FILE,"rep.in" or die $!;
while (my $line = <FILE>) {
      chomp($line);
  my @words = split /\|/,$line;
  for (my $i=0; $i <= $#words; $i++) {
    if($i == 0)
    {
       next;
    }
    print $fh  $words[$i] . "|^"
  }
  print $fh  $hash{$words[0]} . "\n";
 }
 close FILE;
 close $fh;
 print "done\n";

my $Now_string = strftime "%a %b %e %H:%M:%s %Y",localtime;
print $Now_string . "\n";

解决方法

由于一些原因,您的技术效率极低.

>搭售非常缓慢.
>你把一切都拉进记忆中.

第一个可以通过自己阅读和分裂来缓解,但后者总是会成为一个问题.经验法则是避免将大量数据存入内存.它会占用所有内存并可能导致它交换到磁盘并减慢waaaay,特别是如果你使用旋转磁盘.

相反,您可以使用各种“磁盘哈希”来使用GDBM_File或BerkleyDB等模块.

但是真的没有理由搞乱他们因为我们有sqlite而且它做的更快更好.

在sqlite中创建一个表.

create table imported (
    id integer,value text
);

使用sqlite shell的.import导入文件,使用.mode和.separator调整格式.

sqlite>     create table imported (
   ...>         id integer,...>         value text
   ...>     );
sqlite> .mode list
sqlite> .separator |
sqlite> .import test.data imported
sqlite> .mode column
sqlite> select * from imported;
12345       NITIN     
12346       NITINfoo  
2398        bar       
9823        baz

现在,您和其他任何必须使用数据的人都可以使用高效,灵活的sql做任何您喜欢的事情.即使导入需要一段时间,你也可以去做其他事情.

perl中非常庞大的assosiative数组的更多相关文章

html5使用canvas实现弹幕功能示例

这篇文章主要介绍了html5使用canvas实现弹幕功能示例的相关资料,需要的朋友可以参考下
前端实现弹幕效果的方法总结(包含css3和canvas的实现方式)

这篇文章主要介绍了前端实现弹幕效果的方法总结(包含css3和canvas的实现方式)的相关资料,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
H5 canvas实现贪吃蛇小游戏

本篇文章主要介绍了H5 canvas实现贪吃蛇小游戏，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
ios – parse.com用于键,预期字符串的无效类型,但是得到了数组

我尝试将我的数据保存到parse.com.我已经预先在parse.com上创建了一个名为’SomeClass’的类.它有一个名为’mySpecialColumn’的列,其数据类型为String.这是我尝试使用以下代码保存数据的代码：如果我运行这个我得到：错误：密钥mySpecialColumn的无效类型,预期字符串,但得到数组这就是我在parse.com上的核心外观：有谁知道我为什么会收到这个错误？
ios – 上下文类型’NSFastEnumeration’不能与数组文字一起使用

斯威夫特3,你会这样做吗？解决方法正如您所发现的,您不能使用as-casting将数组文字的类型指定为NSFastEnumeration.您需要找到一个符合NSFastEnumeration的正确类,在您的情况下它是NSArray.通常写这样的东西：
ios – 获取资产目录文件夹中所有图像的数组

在iOS中,是否可以获取资产目录文件夹中的图像数组？我不确定为什么会对此进行投票.我真的不知道从哪里开始.我的另一种方法是创建文件夹中所有文件的plist,但它似乎是多余的.我无法添加任何代码,因为我会添加什么？
ios – 来自调试器的消息：由于内存问题而终止

我的应用程序使用Geojson文件.我使用MapBoxSDK将MGLpolyline添加到地图中.但问题是我的文件太大,以至于应用程序崩溃并收到错误：来自调试器的消息：由于内存问题而终止.我在第一次循环时面对66234个对象.我试图将数组块化为新数组,但没有成功.请帮我解决问题.这是我在地图上绘制的代码,这里是我的testprojectongithubuseXcode8.1如果有任何不同的第三方可
ios – Swift – 使用字典数组从字典访问数据时出错

我有一个非常简单的例子,说明我想做什么基本上,我有一个字典,其值包含[String：String]字典数组.我把数据填入其中,但当我去访问数据时,我收到此错误：Cannotsubscriptavalueoftype‘[([String:String])]?’withanindexoftype‘Int’请让我知道我做错了什么.解决方法您的常量数组是可选的.订阅字典总是返回一个可选项.你必须打开它.更
ios – 在Swift中使用“Map”创建两个数组的超集

假设我有两个数组：我想组合两个数组,以便我得到一个输出我该怎么做呢？
ios – 基于一个对象内的一个值,根据一个值对NSObject数组进行排序

我创建了一个对象,它看起来像这样然后将其添加到可变数组.稍后,我计算出每个对象到当前gps位置的距离,并将其添加到对象中并将其放回到数组中.我现在需要根据aOffice.distance的值对该数组进行排序,但不知道该怎么做请有人帮帮我谢谢解决方法

随机推荐

数组 – Perl中有什么神奇的数组？

在Perldocumentationforreverse中,我发现：“请注意,将数组反转到自身(如@a=reverse@a)将尽可能保留不存在的元素;即对于非魔法数组或具有EXISTS和DELETE方法的绑定数组.什么属性区分神奇和非魔法阵列？解决方法一个神奇的阵列是一个执行它的操作不仅仅是改变内容.只有内置的魔术阵列是@ISA,而且这是非常不明显的.正如句子所暗示的,魔术阵列主要是一个绑定的阵列
perl – 使用“isa”方法的最佳方式？

什么是“最好的”使用方式“isa()”可靠？解决方法Scalar::Util实现明确更好.它避免了eval{}的开销,它总是导致设置一个附加变量.Scalar::Util实现更容易阅读.如果eval也失败了,我相信发生的是你在树之前向后走到eval之前的状态–这是如何实现复位状态.这带来了额外的故障开销.基准根本不是一个对象对象传递isa检查对象出现故障现象检查测试代码：我使用这是为i486-linux-gnu-thread-multi建立的perl,v5.10.1(*),以及Scalar::Util,1
在CORE :: GLOBAL中哪些Perl内置函数不能被覆盖？

解决方法toke.c中任何值为负的值都可以被覆盖;所有其他人可能不会.你可以看源码here.例如,我们来看看第10,396行的waitpid：由于waitpid为负数,因此可能会被覆盖.grep怎么样？这是积极的,所以不能被覆盖.这意味着以下关键字不能被覆盖：chop,defined,delete,do,dump,each,else,elsif,eval,exists,for,foreach,format,glob,goto,grep,if,keys,last,local,m,map,my,next,no
如何在Perl中打印由换行符分隔的列表元素？

什么是最简单的打印所有列表的元素以Perl中的换行符分隔的元素？解决方法在Perl5.10中：其他方式：或：或者怎么样？
使用Perl如何获取文件大小(以兆字节为单位)？

我想以磁盘的形式获取磁盘上的文件大小.使用-s运算符给出了以字节为单位的大小,但是我将假设,然后将其除以魔术数字是一个坏主意：我应该使用只读变量来定义1024,还是有一种编程方式来获取一千字节的字节数？
perl – 如何测试/分类CPAN模块的utf8正确性

例如：File::Slurp,如果你将读取该文件您将根据命令行开关获得不同的结果,并且perl-CSDA将无法正常工作.伤心.(是的,我知道比Encode::decode(“utf8”,read_file($file,binmode=>’：raw’));将帮助,但是SAD.我的问题：>在这里任何首选方式,如何测试/分类什么CPAN模块是utf8安全/准备/正确？>这里是像Perl::Criticforutf8这样的东西–什么将检查模块源可能的utf8不正确？总结以上是DEVMAX为你收集整理的perl–如
如何删除Perl字符串中的空格？

如果我声明一个值为’3’的变量$myString.是否有任何功能来删除返回值的空格.有点像SomeFun然后返回’3′.输出：你可以注意到’vid’=>‘0’,上面的代码从theanswer.我正在研究它.总结以上是DEVMAX为你收集整理的如何删除Perl字符串中的空格？如果觉得DEVMAX网站内容还不错，欢迎将DEVMAX网站推荐给好友。
如何在mod_perl2下运行Devel :: Cover？

Unfortunately,Devel::Coverdoesnotyetworkwiththreads.它也不适用于prefork.在startup.pl中使用,Devel::Cover问题perl5.8.9,Apache2.2.13.我的操作系统是FreeBSD,如果重要.同样的问题是reportedforwin32.更新：PerlTrace全部输出解决方法邪恶之源似乎是Apache::DBI.
如何使用Perl中的C类？

我有一套用C写的课.从Perl脚本中调用它们的最佳方法是什么？
perl – 在Emacs中以双模式更好的缩进

我正在使用Emacs来修改Perl和Verilog交织的代码.我正在使用two-mode-mode在两者之间切换,这样可以预期.问题是perl代码与//一行一行地表示;如下图所示：而双模式则认识到它是Perl,它是逐行的,所以缩进等在线上无意义.我想做的是使Perl代码像往常一样格式化,但忽略//;字符.有什么想法吗？我刚刚开始偷看模式文件,它们是可以理解的复杂的,所以任何提示都不会感激！