我想打破下一个字符串的句子:
library(NLP) # NLP_0.1-7  
string <- as.String("Mr. brown comes. He says hello. i give him coffee.")

我想演示两种不同的方法.一个来自package openNLP:

library(openNLP) # openNLP_0.2-5  

sentence_token_annotator <- Maxent_Sent_Token_Annotator(language = "en")  
boundaries_sentences<-annotate(string,sentence_token_annotator)  
string[boundaries_sentences]  

[1] "Mr. brown comes."   "He says hello."     "i give him coffee."

第二个来自package stringi:

library(stringi) # stringi_0.5-5  

stri_split_boundaries( string,opts_brkiter=stri_opts_brkiter('sentence'))

[[1]]  
 [1] "Mr. "                              "brown comes. "                    
 [3] "He says hello. i give him coffee."

在第二种方式之后,我需要准备句子以删除多余的空格,或者再次将一个新的字符串分割成句子.我可以调整字符串功能来提高结果的质量吗?

当它是一个大数据时,openNLP(非常)慢,然后是字符串.
有没有办法组合stringi( – > fast)和openNLP( – >质量)?

ICU中的文本边界(在这种情况下,句子边界)分析(由此在stringi中)由Unicode UAX29中描述的规则参见 ICU Users Guide on the topic.我们读取:

[The Unicode rules] cannot detect cases such as “…Mr. Jones…”; more sophisticated tailoring would be required to detect such cases.

换句话说,如果没有自定义字典的不间断字,这实际上是在openNLP中实现的,这是不可能的.因此,用于执行此任务的几个可能的方案来合并stringi将包括:

>使用stri_split_boundaries然后编写一个函数,决定哪个错误的分割标记应该被加入.
>在文本中手动输入不间断的空格(可能在点后跟等等,先生等等)(注意,这在LaTeX中准备文档时实际上是必需的,否则在单词之间获得太大的空格).
将自定义的不间断单词列表合并到正则表达式中,并应用stri_split_regex.

等等.

正则表达式 – 如何用OpenNLP和stringi检测句子边界?的更多相关文章

  1. HTML5数字输入仅接受整数的实现代码

    这篇文章主要介绍了HTML5数字输入仅接受整数的实现代码,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

  2. HTML5 WebSocket实现点对点聊天的示例代码

    这篇文章主要介绍了HTML5 WebSocket实现点对点聊天的示例代码的相关资料,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  3. ios – 在Swift的UIView中找到UILabel

    我正在尝试在我的UIViewControllers的超级视图中找到我的UILabels.这是我的代码:这是在Objective-C中推荐的方式,但是在Swift中我只得到UIViews和CALayer.我肯定在提供给这个方法的视图中有UILabel.我错过了什么?我的UIViewController中的调用:解决方法使用函数式编程概念可以更轻松地实现这一目标.

  4. ios – 在Swift中将输入字段字符串转换为Int

    所以我非常擅长制作APP广告Swift,我试图在文本字段中做一些非常简单的输入,取值,然后将它们用作Int进行某些计算.但是’vardistance’有些东西不正确它是导致错误的最后一行代码.它说致命错误:无法解开Optional.None解决方法在你的例子中,距离是一个Int?否则称为可选的Int..toInt()返回Int?因为从String到Int的转换可能失败.请参阅以下示例:

  5. 如何在iOS中检测文本(字符串)语言?

    例如,给定以下字符串:我想检测每个声明的字符串中使用的语言.让我们假设已实现函数的签名是:如果没有检测到语言,则返回可选字符串.因此,适当的结果将是:有一个简单的方法来实现它吗?

  6. xamarin – 崩溃在AccountStore.Create().保存(e.Account,“);

    在Xamarin.Forms示例TodoAwsAuth中https://developer.xamarin.com/guides/xamarin-forms/web-services/authentication/oauth/成功登录后,在aOnAuthenticationCompleted事件中,应用程序在尝试保存到Xamarin.Auth时崩溃错误说不能对钥匙串说期待着寻求帮助.解决方法看看你

  7. ios – 将视频分享到Facebook

    我正在编写一个简单的测试应用程序,用于将视频从iOS上传到Facebook.由于FacebookSDK的所有文档都在Objective-C中,因此我发现很难在线找到有关如何使用Swift执行此操作的示例/教程.到目前为止我有这个在我的UI上放置一个共享按钮,但它看起来已禁用,从我读到的这是因为没有内容设置,但我看不出这是怎么可能的.我的getVideoURL()函数返回一个NSURL,它肯定包含视

  8. xcode – 错误“线程1:断点2.1”

    我正在研究RESTAPI管理器.这是一个错误,我无法解决它.我得到的错误在下面突出显示.当我打电话给这个班级获取资源时:我评论的线打印:Thread1:breakpoint2.1我需要修复错误的建议.任何建议都非常感谢解决方法您可能在不注意的情况下意外设置了断点.单击并拖动代表断路器外部断点的蓝色刻度线以将其擦除.

  9. ios – 更改导航栏标题swift中的字符间距

    类型的值有人可以帮我这个或建议一种不同的方式来改变swift中导航栏标题中的字符间距吗?解决方法您无法直接设置属性字符串.你可以通过替换titleView来做一个技巧

  10. ios – 如何从变量访问属性或方法?

    是否可以使用变量作为Swift中方法或属性的名称来访问方法或属性?在PHP中,您可以使用$object->{$variable}.例如编辑:这是我正在使用的实际代码:解决方法你可以做到,但不能使用“纯粹的”Swift.Swift的重点是防止这种危险的动态属性访问.你必须使用Cocoa的Key-ValueCoding功能:非常方便,它完全穿过你要穿过的字符串到属性名称的桥,但要注意:这里是龙.

随机推荐

  1. 正则表达式 – 如何用OpenNLP和stringi检测句子边界?

    我想打破下一个字符串的句子:我想演示两种不同的方法.一个来自packageopenNLP:第二个来自packagestringi:在第二种方式之后,我需要准备句子以删除多余的空格,或者再次将一个新的字符串分割成句子.我可以调整字符串功能来提高结果的质量吗?当它是一个大数据时,openNLP(非常)慢,然后是字符串.有没有办法组合stringi和openNLP?

  2. coursera NLP学习笔记之week1课程介绍&amp;基础的文本处理

    |[0-9]{3}[\-\u00A0.])[0-9]{3}[\-\u00A0.][0-9]{4}+1-650-723-0293723-0293650-723-02933、单词正则化和词干化1、normalization需要正则化的项目有:信息提取indexedtext&querytermsmusthavesameform我们隐含的定义等价类的术语Weimplicitlydefineequivalenceclassesofterms一个替代方案:非对称扩张Alternative:asymmetricexpa

  3. ubuntu14.04中开始Python NLP之旅(一)

    由于此系统是去年安装的,环境是ubuntu14.04。打算将工作环境彻底换到ubuntu环境中,遂开始折腾安装环境,新手,有不对的还麻烦帮忙指出以便于改正。测试,python3.5.2安装完毕。遇到的问题实在太多了,后来才发现ubuntu中已有的python2.7,是不能删除的,于是乎又使得/usr/bin下面的python符号链接文件,重新指向/usr/bin/python2.7。

  4. 如何将jnlp与OSX停靠图标捆绑在一起;这在java首选项中似乎不再可能

    将JNLP打包为应用程序的选项似乎不存在于Oracle的JDK7Java首选项页面中,就像它在苹果中所做的那样,如here所述OSXdesktopintegrationwithJavaWebStartletsuserscreatealocalapplicationbundlefromanyJavaWebStartapplication.TheShortcutCreationsettinginJav

  5. java – JNLP,Webstart和Maven

    我创建了一个简单的HelloWorldSwing应用程序,它可以在Eclipse中编译和运行.我现在正在尝试将此应用程序转移到Maven包结构并将其作为JavaWeb-Start应用程序运行,这让我感到非常痛苦.运行“mvncleaninstall”后,javaws似乎加载了几秒钟然后退出.以下是一些可供参考的内容.我(非常简单)的项目应该是完全可重现的:包结构(来自树):主要pom.xml:Sw

  6. java – 如何使用Open nlp的分块解析器提取名词短语

    我是自然语言处理的新手,我需要从文本中提取出名词短语.我远在我使用opennlp的分块解析器来解析我的文本以获取Tree结构.但是我无法从树结构,在开放nlp中是否有任何正则表达式模式,以便我可以使用它来提取名词短语.以下是我正在使用的代码在这里我得到的输出))有些人可以帮我取得名词短语,如NP,NNP,NN等.有些人可以告诉我,我需要使用任何其他的NPChunker来获得名词短语吗?

  7. 使用JWS JNLP为JavaFX应用程序创建桌面图标

    我正在尝试为我的应用程序显示一个自定义destop图标,但由于某些原因,无论我做什么,都会显示相同的默认java图标.我已经尝试了所有我能想到的东西,并将我的jnlp文件与其图标似乎正常工作的其他人进行了比较.根据我读过的所有内容,以下内容应该可以正常工作.但当然,它没有:任何想法将不胜感激.解决方法我会按顺序尝试以下方法:>创建一个32×32大小的图标,并将其添加为附加

  8. Java jnlp应用程序被安全设置阻止

    我有一个企业级的Java应用程序,它有大量的jars,通过jnlp文件下载到客户端的jvm缓存中.当我启动应用程序时,我在Java控制台上得到以下堆栈跟踪:我的JNLP文件像以下一些审查描述:还要注意,我在更多的信息面板上获得了一些不同的例外细节:我对java控制面板的安全性没有任何安全限制.中等水平如下:感谢任何帮助新编辑:当我尝试从jvm1.6机器运行这个jnlp时,我得到了更多的说明stac

  9. JNLP应使用特定的Java版本,但会出现错误结果

    我在这里面临一个问题.我想使用特殊版本来运行我们的javawebstart应用程序,但只需要一个jnlp.(“经过测试,…blabla我们不能使用新版本…blabla”随机风袋)所以我试着像这样配置我们的JNLP:当我开始这个jnlp时,即使安装了正确的Java,我也会得到以下错误:Error:TheapplicationhasrequestedaversionoftheJRE(version1.

返回
顶部