我正在尝试开发一种方法来获取具有许多属性的实体并在数据库中搜索类似的实体(尽可能以正确的顺序匹配尽可能多的属性).这个想法是它会返回它的相似程度的百分比.

还应考虑属性的顺序,因此开头的属性比最后的属性更重要.

例如:

Item 1 – A,B,C,D,E

Item 2 – A,E

将100%匹配

Item 1 – A,E

Item 2 – B,A,E

这不是一个完美的匹配,因为属性的顺序不同

Item 1 – A,E

Item 2 – F,G,H,I,A

将是一个低匹配,因为只有一个属性是相同的,它位于第5位

该算法将运行成千上万的记录,因此需要具有高性能和高效率.有关如何以快速有效的方式在PHP / MysqL中执行此操作的任何想法?

我正在考虑levenshtein,但据我所知,这也将考虑拼写方面两个完全不同的单词之间的距离.除非我只是以错误的方式使用它,否则似乎不适合这种情况.

它可能只能在MysqL中完成,可能使用全文搜索或其他东西.

这似乎是nice solution,虽然不是为这种情况设计的.也许二进制比较可以用某种方式?

我要做的是将订单和属性值编码为数字.数字具有快速比较的优点.

这是一个普遍的想法,可能仍然需要一些工作,但我希望它会在某种程度上有所帮助.

计算每个属性的数字(某种形式的散列),并将代表项目属性的出现顺序的数字相乘.

说item1有3个属性A,B和C.

hash(A)= 123,hash(B)= 345,hash(C)= 456

然后将它乘以出现的顺序,假设我们有一定数量的属性:

(hash(A)* 1,000,00)(hash(B)* 1,000)(hash(C)* 1)= someval

可以调整乘数的大小以反映您的数据集.你必须确定哈希函数. soundex也许?

现在问题由于哈希冲突而缩小为唯一性问题,但我们可以非常确定不匹配的属性.

此外,通过使用乘数的大小从生成的数字中提取散列值,这将具有相对容易检查属性是否以不同顺序出现在另一个项目中的优点.

HTH.

编辑:检查匹配的示例

给定项目1(a b c)和项目2(a b c).计算的项目哈希值相等.这是最好的情况.无需进一步计算.

给定项目1(a b c)和项目2(d e a).项目的计算哈希值不相等.继续打破财产哈希……

比如属性的哈希表a = 1,b = 2,c = 3,d = 4,e = 5,乘数为10 ^ n. item1的计算哈希值为123,项目2为451,分解每个属性的计算哈希值,并比较每个item1(变为item1(1 2 3))和item2(变为item2(4 5 1)的属性的所有组合. )).然后计算得分.

另一种看待它的方法是逐个比较属性,除了这次,你正在玩数字而不是实际的字符串值

PHP / MySQL – 查找具有相似或匹配属性的项目的更多相关文章

  1. Swift中的集合类数据结构

    在那种情况下,你将会需要一种基本的集合类数据结构。继续学习,你将会比较成熟的Cocoa数据结构与对应的纯Swift结构的性能。常见iOS数据结构iOS中三种最常用的数据结构是arrays,dictionaries和sets。除了在Swift和Objective-C中旧的Foundation框架中的数据结构,现在又有了新的仅支持Swift版本的数据结构与语言紧密结合在一起。Swift数组是同质的,意味着每一个Swift数组都只包含一种类型的对象。

  2. 是Swift词典的索引性能?即使是异国风情(UUID)?

    我想构建一些将保留以便快速搜索的数组.如果我使用这样的东西:请问查询:在对数时间内执行?如果是,对其他类型是否相同:Float,Double,String.最后,我需要它使用UUID类型,它会工作吗?

  3. PHP实现二维数组中的查找算法小结

    这篇文章主要介绍了PHP实现二维数组中的查找算法,涉及PHP数组遍历、判断、计算等相关操作技巧,需要的朋友可以参考下

  4. 详解Python查找算法的实现(线性,二分,分块,插值)

    这篇文章主要为大家介绍了Python中常见的四种查找算法的实现:线性、二分、分块和插值,文中通过图片详细讲解了它们实现的原理与代码,需要的可以参考一下

  5. 如何利用JavaScript实现二叉搜索树

    这篇文章主要给大家介绍了关于如何利用JavaScript实现二叉搜索树的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

  6. PHP / MySQL – 查找具有相似或匹配属性的项目

    现在问题由于哈希冲突而缩小为唯一性问题,但我们可以非常确定不匹配的属性.此外,通过使用乘数的大小从生成的数字中提取散列值,这将具有相对容易检查属性是否以不同顺序出现在另一个项目中的优点.HTH.编辑:检查匹配的示例给定项目1和项目2.计算的项目哈希值相等.这是最好的情况.无需进一步计算.给定项目1和项目2.项目的计算哈希值不相等.继续打破财产哈希……

  7. 正则表达式太慢?这里有一个提速100倍的方案附代码

    “当遇到一个文本处理问题时,如果你在第一时间想到了正则表达式,那么恭喜你,你的问题从一个变成了俩!“如果你曾参与过文本数据分析,正则表达式(Regex)对你来说一定不陌生。词库索引、关键词替换……正则表达式的强大功能使其成为了文本处理的必备工具。然而,在处理大文本的情境下,正则表达式的低效率却常常让人抓耳挠腮。今天,文摘菌将为你介绍一款比正则表达式快数百倍的Python库——FlashText。让

  8. php array_intersect()效率

    考虑下面的脚本.只有三个值的两个数组.当我使用array_intersect()比较这两个数组时.结果很快.我的问题是array_intersect()的效率是多少.是否我们比较两个都有1000个值的数组.会产生更好的结果…..我们需要使用一些哈希函数来处理快速找到常用值这将是有效的???..我需要你的建议…

  9. sku组合查询算法探索

    什么是SKU问题来自垂直导购线周会的一次讨论,sku组合查询,这个题目比较俗,是我自己取得。当sku属性只是2×2的时候,还是很容易计算的。演示框最下面是可用的sku组合。如果sku属性组合元素的总和数用m表示,结果数据长度为n,那么每次选择后,需要的算法大致步骤是m*n。正则表达式很不稳定,万一sku组合中有一些特殊字符,就可能导致一个正则匹配没能匹配到我们想要的表达式。

  10. 正则表达式,来自百度百科

    正则表达式编辑正则表达式,又称规则表达式。正则表达式被作为用来描述其称之为“正则集的代数”的一种表达式,因而采用了“正则表达式”这个术语。传统的NFA引擎运行所谓的“贪婪的”匹配回溯算法,以指定顺序测试正则表达式的所有可能的扩展并接受第一个匹配项。因为传统的NFA构造正则表达式的特定扩展以获得成功的匹配,所以它可以捕获子表达式匹配和匹配的反向引用。

随机推荐

  1. PHP个人网站架设连环讲(一)

    先下一个OmnihttpdProffesinalV2.06,装上就有PHP4beta3可以用了。PHP4给我们带来一个简单的方法,就是使用SESSION(会话)级变量。但是如果不是PHP4又该怎么办?我们可以假设某人在15分钟以内对你的网页的请求都不属于一个新的人次,这样你可以做个计数的过程存在INC里,在每一个页面引用,访客第一次进入时将访问时间送到cookie里。以后每个页面被访问时都检查cookie上次访问时间值。

  2. PHP函数学习之PHP函数点评

    PHP函数使用说明,应用举例,精简点评,希望对您学习php有所帮助

  3. ecshop2.7.3 在php5.4下的各种错误问题处理

    将方法内的函数,分拆为2个部分。这个和gd库没有一点关系,是ecshop程序的问题。会出现这种问题,不外乎就是当前会员的session或者程序对cookie的处理存在漏洞。进过本地测试,includes\modules\integrates\ecshop.php这个整合自身会员的类中没有重写integrate.php中的check_cookie()方法导致,验证cookie时返回的username为空,丢失了登录状态,在ecshop.php中重写了此方法就可以了。把他加到ecshop.php的最后面去就可

  4. NT IIS下用ODBC连接数据库

    $connection=intodbc_connect建立数据库连接,$query_string="查询记录的条件"如:$query_string="select*fromtable"用$cur=intodbc_exec检索数据库,将记录集放入$cur变量中。再用while{$var1=odbc_result;$var2=odbc_result;...}读取odbc_exec()返回的数据集$cur。最后是odbc_close关闭数据库的连接。odbc_result()函数是取当前记录的指定字段值。

  5. PHP使用JpGraph绘制折线图操作示例【附源码下载】

    这篇文章主要介绍了PHP使用JpGraph绘制折线图操作,结合实例形式分析了php使用JpGraph的相关操作技巧与注意事项,并附带源码供读者下载参考,需要的朋友可以参考下

  6. zen_cart实现支付前生成订单的方法

    这篇文章主要介绍了zen_cart实现支付前生成订单的方法,结合实例形式详细分析了zen_cart支付前生成订单的具体步骤与相关实现技巧,需要的朋友可以参考下

  7. Thinkphp5框架实现获取数据库数据到视图的方法

    这篇文章主要介绍了Thinkphp5框架实现获取数据库数据到视图的方法,涉及thinkPHP5数据库配置、读取、模型操作及视图调用相关操作技巧,需要的朋友可以参考下

  8. PHP+jquery+CSS制作头像登录窗(仿QQ登陆)

    本篇文章介绍了PHP结合jQ和CSS制作头像登录窗(仿QQ登陆),实现了类似QQ的登陆界面,很有参考价值,有需要的朋友可以了解一下。

  9. 基于win2003虚拟机中apache服务器的访问

    下面小编就为大家带来一篇基于win2003虚拟机中apache服务器的访问。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  10. Yii2中组件的注册与创建方法

    这篇文章主要介绍了Yii2之组件的注册与创建的实现方法,非常不错,具有参考借鉴价值,需要的朋友可以参考下

返回
顶部