Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站

Sphinx的特性如下:

a)  高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);

b)  高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);

c)  可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

Sphinx本身对中文的支持并不好。

主要体现在对一段话断词;英文只需按照空格对其分词即可;但对于博大精深的中文来说,却是件困难的事情。

分词在两个地方会用到;

1、索引时,根据分词索引原始数据

2、搜索时,对用户输入分词,到索引中查询

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx Scws

1、Coreseek 为国人基于Sphinx开发的方案,目前最稳定版,是基于经典的Sphinx0.9.9版

优点:有成熟的文档、以及社区;其分词mmseg为目前国内最为好用分词,索引和搜索分词都可以用到;

缺点:深度开发、版本更新较慢;索引较慢

策略:一个词库管理后台,维护词库;定期生成字典;此套件会自动分词索引;

适用场景:普通青年、搭建差不多的搜索,适用于普遍网站

2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版

优点:部署简单,易操作,内嵌分词和词库,索引和搜索分词都可以用到;

缺点:版本更新较慢;分词较弱;索引相对较慢

策略:同一

适用场景:普通青年、快速搭建搜索的小站

3、Sphinx Scws 为两套独立系统,单独部署,所谓高内聚低耦合,强烈推荐

优点:两套系统,相对独立,各自单独Server;分词可以做其他用途;版本更新较快;

缺点:部署稍复杂,使用稍复杂;索引分词只能用一元分词,数据量较大

策略:词库管理外;使用时,先调用分词服务,后调用搜索

适用场景:文艺青年、搭建像样点的搜索;好吧文艺青年

以上这篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx Scws的区别就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持Devmax。

浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别的更多相关文章

  1. android – 可以设置CMU Sphinx来识别~200个单词

    我有一个客户端需要能够识别口头命令的Android应用程序.根据我的理解,内置语音到文本功能实际上将数据发送到Google的服务器,然后发送回文本翻译.这是一个主要问题,因为语音数据非常敏感.我可以想到两个选项.首先是在Android上转换语音到文本,虽然这似乎是一个非常昂贵的操作.第二种可能性是让本地服务器为我转换数据.这是CMUSphinx能够实现的吗?

  2. 尝试使用NDK为Android构建PocketSphinx时出现问题

    我不是一个C/C++或Linux家伙所以我在这里很黑暗.任何帮助将不胜感激.谢谢!解决方法解决了我的问题.也许有人会发现这些信息有用:)我做的是完全重建所有静态库项目,然后我的应用程序,使用“ndk-build-B”

  3. centos+php+coreseek+sphinx+mysql之一coreseek安装篇

    这篇文章主要介绍了centos+php+coreseek+sphinx+mysql之一coreseek安装篇的相关资料,非常不错具有参考借鉴价值,需要的朋友可以参考下

  4. PHP+MySQL+sphinx+scws实现全文检索功能详解

    这篇文章主要介绍了PHP+MySQL+sphinx+scws实现全文检索功能,详细分析了sphinx、scws的下载安装、配置、数据库创建及全文检索功能的相关实现技巧,需要的朋友可以参考下

  5. Yii框架结合sphinx,Ajax实现搜索分页功能示例

    这篇文章主要介绍了Yii框架结合sphinx,Ajax实现搜索分页功能,结合实例形式分析了Yii框架中使用sphinx与Ajax实现搜索结果的分页展示效果,需要的朋友可以参考下

  6. Yii框架引入coreseek分页功能示例

    这篇文章主要介绍了Yii框架引入coreseek分页功能,结合实例形式分析了Yii框架结合coreseek搜索进行分页的相关操作技巧,需要的朋友可以参考下

  7. Yii框架中sphinx索引配置方法解析

    这篇文章主要介绍了Yii框架中sphinx索引配置方法,较为详细的分析了sphinx索引配置的步骤与相关操作技巧,需要的朋友可以参考下

  8. 浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别

    下面小编就为大家带来一篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  9. ubuntu – 硬重启后删除/ var / run中的目录

    人们通常如何处理这种情况?我用的是UbuntuHardy那个目录是设计上的短暂.如果它的内容卡在靴子之间,可能会发生各种丑陋的效果,因为各种各样的控制脚本会在那里查看它们应该发出信号的过程.在最近的系统中,这种临时性质是通过将/var/run挂载为tmpfs来强制执行的,而旧系统只是在启动时删除了目录中的所有内容.因此,您需要配置Sphinx或其启动脚本来创建该目录,或者直接在/var/run中编写PID文件.

  10. php – 如何在Sphinx中查询完全匹配的词组?

    似乎Sphinx正在逐字搜索文档.我不知道如何在文档中搜索确切的短语.我尝试了SPH_MATCH_ALL,SPH_MATCH_PHRASE,但都是逐字搜索文档.我在我的PHP应用程序中使用它.如何查询Sphinx以匹配精确的字符串?

随机推荐

  1. PHP个人网站架设连环讲(一)

    先下一个OmnihttpdProffesinalV2.06,装上就有PHP4beta3可以用了。PHP4给我们带来一个简单的方法,就是使用SESSION(会话)级变量。但是如果不是PHP4又该怎么办?我们可以假设某人在15分钟以内对你的网页的请求都不属于一个新的人次,这样你可以做个计数的过程存在INC里,在每一个页面引用,访客第一次进入时将访问时间送到cookie里。以后每个页面被访问时都检查cookie上次访问时间值。

  2. PHP函数学习之PHP函数点评

    PHP函数使用说明,应用举例,精简点评,希望对您学习php有所帮助

  3. ecshop2.7.3 在php5.4下的各种错误问题处理

    将方法内的函数,分拆为2个部分。这个和gd库没有一点关系,是ecshop程序的问题。会出现这种问题,不外乎就是当前会员的session或者程序对cookie的处理存在漏洞。进过本地测试,includes\modules\integrates\ecshop.php这个整合自身会员的类中没有重写integrate.php中的check_cookie()方法导致,验证cookie时返回的username为空,丢失了登录状态,在ecshop.php中重写了此方法就可以了。把他加到ecshop.php的最后面去就可

  4. NT IIS下用ODBC连接数据库

    $connection=intodbc_connect建立数据库连接,$query_string="查询记录的条件"如:$query_string="select*fromtable"用$cur=intodbc_exec检索数据库,将记录集放入$cur变量中。再用while{$var1=odbc_result;$var2=odbc_result;...}读取odbc_exec()返回的数据集$cur。最后是odbc_close关闭数据库的连接。odbc_result()函数是取当前记录的指定字段值。

  5. PHP使用JpGraph绘制折线图操作示例【附源码下载】

    这篇文章主要介绍了PHP使用JpGraph绘制折线图操作,结合实例形式分析了php使用JpGraph的相关操作技巧与注意事项,并附带源码供读者下载参考,需要的朋友可以参考下

  6. zen_cart实现支付前生成订单的方法

    这篇文章主要介绍了zen_cart实现支付前生成订单的方法,结合实例形式详细分析了zen_cart支付前生成订单的具体步骤与相关实现技巧,需要的朋友可以参考下

  7. Thinkphp5框架实现获取数据库数据到视图的方法

    这篇文章主要介绍了Thinkphp5框架实现获取数据库数据到视图的方法,涉及thinkPHP5数据库配置、读取、模型操作及视图调用相关操作技巧,需要的朋友可以参考下

  8. PHP+jquery+CSS制作头像登录窗(仿QQ登陆)

    本篇文章介绍了PHP结合jQ和CSS制作头像登录窗(仿QQ登陆),实现了类似QQ的登陆界面,很有参考价值,有需要的朋友可以了解一下。

  9. 基于win2003虚拟机中apache服务器的访问

    下面小编就为大家带来一篇基于win2003虚拟机中apache服务器的访问。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  10. Yii2中组件的注册与创建方法

    这篇文章主要介绍了Yii2之组件的注册与创建的实现方法,非常不错,具有参考借鉴价值,需要的朋友可以参考下

返回
顶部