我可以访问.com区域文件.区域文件是一个文本文件,其中包含域名列表及其名称服务器.它遵循以下格式:
mydomain NS ns.mynameserver.com.
mydomain NS ns2.mynameserver.com.
anotherdomain NS nameservers.com.
notinalphadomain NS ns.example.com.
notinalphadomain NS ns1.example.com.
notinalphadomain NS ns2.example.com.

如您所见,每个域可以有多行(当有多个名称服务器时),并且文件不是按字母顺序排列的.
这些文件大小约为7GB.

我正在尝试获取上一个文件和新文件,并将它们进行比较以查找:

>添加了哪些域名
>删除了哪些域名
>哪些域名更改了域名服务器

由于7GB太大而无法将整个文件加载到内存中,显然我需要在流中读取.我目前认为最好的方法是对两个文件进行多次传递.字母表中每个字母的一次传递,加载第一次传递中以’a’开头的所有域.
一旦我从旧文件和新文件中获得了所有“a”域,我就可以在内存中进行非常简单的比较来查找更改.

问题是,即使通过char读取char,并按照我能够想到的优化,每次传递文件大约需要200-300秒,收集当前传递字母的所有域.因此,我认为在当前状态下,我正在查看大约一个小时来处理文件,甚至没有将更改存储在数据库中(这将花费更多时间).这是在双四核xeon服务器上,因此对它投入更多的马力对我来说不是一个选择.
这个时间可能不是一个交易破坏者,但我希望有人对如何加快速度提出一些明智的想法……不可否认,我还没有尝试过async IO,这是我的下一步.

提前感谢任何想法!

解决方法

就最佳代码类型而言,准备数据可能会有所帮助:不成文的类型,以及执行速度.
cat yesterday-com-zone | tr A-Z a-z | sort > prepared-yesterday
cat today-com-zone | tr A-Z a-z | sort > prepared-today

现在,你的程序做了一个非常简单的差异算法,你甚至可以使用diff:

diff prepared-today prepared-yesterday

编辑:

还有一种替代解决方案,可以消除一些额外的处理,可能会牺牲差异执行时间.这也假定使用GnuWin32 CoreUtils:

sort -f <today-com-zone >prepared-today
sort -f <yesterday-com-zone >prepared-yesterday
diff -i prepared-today prepared-yesterday

该输出将是添加,删除和更改的列表.每个区域不一定有1个更改记录(考虑当按顺序按字母顺序删除两个域时会发生什么).您可能需要使用diff选项来强制它不检查上下文的多行,以避免大量的误报变化.

您可能需要编写程序来获取两个已排序的输入文件,然后以锁定步骤,​​每个区域运行它们.在TODAY文件中找到新区域时,这是一个新区域.当在YESTERDAY文件中找到“新”区域(但今天丢失)时,这是一个删除.当在两个文件中找到“相同”区域时,则比较NS记录.这不是改变,也不是名称服务器的改变.

c# – 查找2个巨大区域(文本)文件之间的更改的更多相关文章

  1. Swift中的集合类数据结构

    在那种情况下,你将会需要一种基本的集合类数据结构。继续学习,你将会比较成熟的Cocoa数据结构与对应的纯Swift结构的性能。常见iOS数据结构iOS中三种最常用的数据结构是arrays,dictionaries和sets。除了在Swift和Objective-C中旧的Foundation框架中的数据结构,现在又有了新的仅支持Swift版本的数据结构与语言紧密结合在一起。Swift数组是同质的,意味着每一个Swift数组都只包含一种类型的对象。

  2. 是Swift词典的索引性能?即使是异国风情(UUID)?

    我想构建一些将保留以便快速搜索的数组.如果我使用这样的东西:请问查询:在对数时间内执行?如果是,对其他类型是否相同:Float,Double,String.最后,我需要它使用UUID类型,它会工作吗?

  3. Android实现清除单个域名的cookie

    这篇文章主要介绍了Android实现清除单个域名的cookie,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

  4. PHP如何获取当前主机、域名、网址、路径、端口等参数

    本篇文章主要介绍了PHP如何获取当前主机、域名、网址、路径、端口等参数,具有一定的参考价值,有兴趣的可以了解下

  5. 基于 Python实现云服务器的CDN域名远程鉴权配置

    这篇文章主要介绍了基于 Python实现云服务器的CDN域名远程鉴权配置,文章内容技术详细,具有一定的参考价值,需要的小伙伴可以参考一下

  6. 一个域名查询的程序

    我制作的域名查询的源代码,主要用了两个字符串函数implode()和explode,利用这两个函数的切割字符串的强大功能,可以查询.com,.net.,org.,cc.,tv下的域名whois。

  7. 无数据库的详细域名查询程序PHP版(1)

    --PoweredbyMWhoiswrittenbyMattWilson-->\\n\";/*############################################################################################本域名查询系统由mydowns收集整理汉化,汉化归把握时间网站所有##该程序是2001年5月18日发布的最新版本,本站将对此程序继续进行修改完善,敬请关注本站!##该程序可以查询域名

  8. PHP 二级子目录(后台目录)设置二级域名

    本文主要介绍了PHP 二级子目录(后台目录)设置二级域名的方法。具有很好的参考价值,下面跟着小编一起来看下吧

  9. 关于iframe跨域使用postMessage的实现

    这篇文章主要介绍了关于iframe跨域使用postMessage的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

  10. PHP随机获取未被微信屏蔽的域名(微信域名检测)

    这篇文章主要介绍了PHP随机获取未被微信屏蔽的域名(微信域名检测),非常不错,具有参考借鉴价值,需要的朋友可以参考下

随机推荐

  1. c# – (wpf)Application.Current.Resources vs FindResource

    所以,我正在使用C#中的WPF创建一个GUI.它看起来像这样:它现在还没有完成.这两行是我尝试制作一种数据表,它们在XAML中是硬编码的.现在,我正在C#中实现添加新的水果按钮功能.我在XAML中有以下样式来控制行的背景图像应该是什么样子:因此,在代码中,我为每列col0,col1和col2创建一个图像,如果我使用以下代码,它添加了一个如下所示的新行:如你所见,它不太正确……为什么一个似乎忽略了一些属性而另一个没有?

  2. c# – 绑定DataGridTemplateColumn

    似乎我已经打了个墙,试图在DataGrid上使用DataTemplates.我想要做的是使用一个模板来显示每个单元格的两行文本.但是似乎无法以任何方式绑定列.以下代码希望显示我想做的事情.注意每个列的绑定:模板列没有这样的东西,因此,这个xaml不可能工作.我注定要将整个DataTemplate复制到每个列,只是对每个副本都有不同的约束?解决方法我不完全确定你想要做什么,但如果您需要获取整行的DataContext,可以使用RelativeSource绑定来移动视觉树.像这样:

  3. c# – 学习设计模式的资源

    最近我来到了这个设计模式的概念,并对此感到非常热情.你能建议一些帮助我深入设计模式的资源吗?

  4. c# – 是否有支持嵌入HTML页面的跨操作系统GUI框架?

    我想开发一个桌面应用程序来使用跨系统,是否有一个GUI框架,允许我为所有3个平台编写一次代码,并具有完全可脚本化的嵌入式Web组件?我需要它有一个API来在应用程序和网页之间进行交流.我知道C#,JavaScript和一些python.解决方法Qt有这样的事情QWebView.

  5. c# – 通过字符串在对象图中查找属性

    我试图使用任意字符串访问嵌套类结构的各个部分.给出以下(设计的)类:我想要从Person对象的一个实例的“PersonsAddress.HousePhone.Number”获取对象.目前我正在使用反思来做一些简单的递归查找,但是我希望有一些忍者有更好的想法.作为参考,这里是我开发的(crappy)方法:解决方法您可以简单地使用标准的.NETDataBinder.EvalMethod,像这样:

  6. c# – 文件下载后更新页面

    FamilyID=0a391abd-25c1-4fc0-919f-b21f31ab88b7&displaylang=en&pf=true它呈现该页面,然后使用以下元刷新标签来实际向用户提供要下载的文件:你可能需要在你的应用程序中做类似的事情.但是,如果您真的有兴趣在文件完全下载后执行某些操作,那么您的运气不佳,因为没有任何事件可以与浏览器进行通信.执行此操作的唯一方法是上传附件时使用的AJAXupload.

  7. c# – 如何在每个机器应用程序中实现单个实例?

    我必须限制我的.net4WPF应用程序,以便每台机器只能运行一次.请注意,我说每个机器,而不是每个会话.我使用一个简单的互斥体实现单实例应用程序,直到现在,但不幸的是,这样一个互斥是每个会话.有没有办法创建机器互连,还是有其他解决方案来实现每个机器应用程序的单个实例?

  8. c# – WCF和多个主机头

    我的雇主网站有多个主机名,都是同一个服务器,我们只是显示不同的皮肤来进行品牌宣传.不幸的是,在这种情况下,WCF似乎不能很好地工作.我试过overridingthedefaulthostwithacustomhostfactory.这不是一个可以接受的解决方案,因为它需要从所有主机工作,而不仅仅是1.我也看过thisblogpost,但是我无法让它工作,或者不是为了解决我的问题.我得到的错误是“这

  9. c# – ASP.NET MVC模型绑定与表单元素名称中的虚线

    我一直在搜索互联网,试图找到一种方式来容纳我的表单元素的破折号到ASP.NET的控制器在MVC2,3或甚至4中的默认模型绑定行为.作为一名前端开发人员,我更喜欢在我的CSS中使用camelCase或下划线进行破折号.在我的标记中,我想要做的是这样的:在控制器中,我会传入一个C#对象,看起来像这样:有没有办法通过一些正则表达式或其他行为来扩展Controller类来适应这种情况?我讨厌这样的事实,我必须这样做:甚至这个:思考?

  10. c# – 用户界面设计工具

    我正在寻找一个用户界面设计工具来显示文档中可能的GUI.我不能生成代码.我知道MicrosoftVisio提供了一个功能.但有什么办法吗?您使用哪种软件可视化GUI?

返回
顶部