NLP简介

NLP的任务:1、问题回答(question answering)2、信息提取(information extraction)3、信息提取和情感分析(information extraction & sentiment analysis)4、机器翻译(machine translation)

NLP研究状况:一、{1、垃圾右键识别(spam detection)2、词性标注(part of speechtagging)3、命名实体识别(NER named entity recognition)}已经解决(mostly solved)

二、{1、情感分析 2、指代消解 (coreference resolution) 3 词义消歧(word sense disambiguation(WSD))4、句子解析(parsing) 5、机器翻译(machine translation) 6 、信息提取(information extraction)}已取得很大进展。

三、{1、问答系统 (question answering)2、意译(paraphrase)3、总结(summarization)4、对话系统(dialog)}比较困难

基本的文本处理

一、正则表达式

1、匹配邮件地址 [a-zA-Z0-9][^ \t\n\f\r\"<>|()\u00A0]*@([^ \t\n\f\r\"<>|().\u00A0]+\.)+[a-zA-Z]{2,4}(主要是理解正则表达式的原理)

juraf8sky@stanford.edu
jurafsky@126.stanford.edu
jurafsky@csli.stanford.edu
jurafsky@csli.stanford.edu

2、匹配电话号码(\([0-9]{3}\)[ \u00A0]?|[0-9]{3}[\- \u00A0.])[0-9]{3}[\- \u00A0.][0-9]{4}(\u00A0表示无间断空白)

+1-650-723-0293
(650) 723-0293
650-723-0293

3、单词正则化和词干化(word normalization and stemming)

1、normalization

需要正则化的项目有:信息提取(information Retrieval)indexed text & query terms must have same form

我们隐含的定义等价类的术语 We implicitly define equivalence classes of terms(这个有些不懂不知道什么意思)

一个替代方案:非对称扩张Alternative: asymmetric expansion 例子:当我们搜索window的时候搜索的不仅是window还有windows,甚至还有door。

正则化可能更为强大,但是效率较低。

2、大写字母转换为小写(case folding )

在IR中经常会把大写字母变为小写以便于处理,但是对于情感分析和机器翻译来说字母的大小写是很有用的一个特征。

3、词形还原(lemmatization)

am,are is --> be car,cars,car's,cars' ---> car the boy's cars are different colors --> the boy car be different color

如果进行词形还原的话,必须找到对的原形。

4、形态学(Morphology)

语素:组成单词的最小的有意义的单元

词干:核心含义单元

词缀:词干的附属或者说叫点缀(Affixes: Bits and pieces that adhere to stems)期待更好翻译

5、stemming

词干化是指粗略的把单词的后缀给去除掉。

示例:

波特词干化算法:



这个代码google一下很多的。

做了课程安排的作业感觉学到了不少东西,最主要的是让自己耐心下来了。第一篇,继续努力加油吧!

coursera NLP学习笔记之week1课程介绍&基础的文本处理的更多相关文章

  1. Swift社交应用文本输入优化汇总

    本文将汇总一下Swift社交应用文本输入优化技巧。

  2. 创建自注册的Swift UI 控件

    UIKit的UITextField控件的placeholder属性就是用来干这个的。方式2:NSNotificationCenterNSNotificationCenter通过UITextViewTextDidChangeNotification通知来告诉你用户在TextView中输入或删除了某些字符。一般,我们在对象的deinit方法中向NSNotificationCenter注销该对象。但是在Swift中,我们无法在扩展中使用deinit方法。TheNotificationProxyatRunTime

  3. 在 Cocoa 中实现 ICU 文本变换

    ICU库提供了一整套强大的文本变换功能,在处理用户输入、特别是当你的程序需要处理一些英语之外的语言或者非拉丁字符时非常有用。在Apple的平台中,字符串变换一直以来都是通过CoreFoundation的CFStringTranform函数来实现。输入变换结果HELLOWORLDLowerhelloworld仅转换元音字母为小写。拉丁到ASCII这一步会移除变音符以及会把ASCII码范围之外的字符和标点符号转换成ASCII中与之最为接近的版本。如发现本站有涉嫌侵权/违法违规的内容,请发送邮件至dio@fox

  4. HTML5 textarea高度自适应的两种方案

    这篇文章主要介绍了HTML5 textarea高度自适应的两种方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

  5. 为什么只有在模式不是&#39;评估&#39;?

    我不知道为什么它不适用于“eval”模式。

  6. 我如何在python spacy中实现,这样程序就不会&#39;如果句子中还有我们选择的其他单词,那就不匹配这个单词了吗?

    所以我希望程序与单词“ptu”匹配,这很简单,但如果senetence包含“ptuswitch”,我希望它不匹配。我如何实现这一点?我尝试过使用这个,但如果有开关,它仍然可以与PTU匹配。我不想写if语句来寻址,因为我不想硬编码它,而是纯粹根据我可以寻址的模式。

  7. 初探正则表达式

    正则表达式在线理解工具用途正则表达式是一种工具和其他工具一样,他是为了解决某一类专门的问题发明的。正则表达式语言用来构造正则表达式,正则表达式用来完成搜索和替换的操作。以下的例子都是合法的正则表达式:匹配单个字符串1.匹配纯文本-文本-helloworld!-正则表达式-hello-结果-helloworld!这里使用正则表达式的是纯文本,它将匹配原始文本里面的所有hello。

  8. 正则表达式快速入门教程

    正则表达式30分钟入门教程版本:v2.31作者:deerchao转载请注明来源目录跳过目录本文目标如何使用本教程正则表达式到底是什么东西?正则表达式就是用于描述这些规则的工具。假设你在一篇英文小说里查找hi,你可以使用正则表达式hi。如果同时使用其它元字符,我们就能构造出功能更强大的正则表达式。正则表达式的语法很令人头疼,即使对经常使用它的人来说也是如此。对中文/汉字的特殊处理是由.Net提供的正则表达

  9. 正则表达式30分钟入门教程

    入门测试正则表达式元字符字符转义重复字符类分枝条件反义分组后向引用零宽断言负向零宽断言注释贪婪与懒惰处理选项平衡组/递归匹配还有些什么东西没提到联系作者网上的资源及本文参考文献更新纪录本文目标30分钟内让你明白正则表达式是什么,并对它有一些基本的了解,让你可以在自己的程序或网页里使用它。正则表达式就是用于描述这些规则的工具。正则表达式的语法很令人头疼,即使对经常使用它的人来说也是如此。

  10. php – 从文本块中提取相关标记/关键字

    我想要一个特定的实现,以便用户提供一个文本块,如:“Requirements–WorkingkNowledge,onLAMPEnvironmentusingLinux,Apache2,MySQL5andPHP5,–KNowledgeofWeb2.0Standards–ComfortablewithJSON–HandsonExperienceonworkingwithFrameworks,Zend,

随机推荐

  1. 正则表达式 – 如何用OpenNLP和stringi检测句子边界?

    我想打破下一个字符串的句子:我想演示两种不同的方法.一个来自packageopenNLP:第二个来自packagestringi:在第二种方式之后,我需要准备句子以删除多余的空格,或者再次将一个新的字符串分割成句子.我可以调整字符串功能来提高结果的质量吗?当它是一个大数据时,openNLP(非常)慢,然后是字符串.有没有办法组合stringi和openNLP?

  2. coursera NLP学习笔记之week1课程介绍&amp;基础的文本处理

    |[0-9]{3}[\-\u00A0.])[0-9]{3}[\-\u00A0.][0-9]{4}+1-650-723-0293723-0293650-723-02933、单词正则化和词干化1、normalization需要正则化的项目有:信息提取indexedtext&querytermsmusthavesameform我们隐含的定义等价类的术语Weimplicitlydefineequivalenceclassesofterms一个替代方案:非对称扩张Alternative:asymmetricexpa

  3. ubuntu14.04中开始Python NLP之旅(一)

    由于此系统是去年安装的,环境是ubuntu14.04。打算将工作环境彻底换到ubuntu环境中,遂开始折腾安装环境,新手,有不对的还麻烦帮忙指出以便于改正。测试,python3.5.2安装完毕。遇到的问题实在太多了,后来才发现ubuntu中已有的python2.7,是不能删除的,于是乎又使得/usr/bin下面的python符号链接文件,重新指向/usr/bin/python2.7。

  4. 如何将jnlp与OSX停靠图标捆绑在一起;这在java首选项中似乎不再可能

    将JNLP打包为应用程序的选项似乎不存在于Oracle的JDK7Java首选项页面中,就像它在苹果中所做的那样,如here所述OSXdesktopintegrationwithJavaWebStartletsuserscreatealocalapplicationbundlefromanyJavaWebStartapplication.TheShortcutCreationsettinginJav

  5. java – JNLP,Webstart和Maven

    我创建了一个简单的HelloWorldSwing应用程序,它可以在Eclipse中编译和运行.我现在正在尝试将此应用程序转移到Maven包结构并将其作为JavaWeb-Start应用程序运行,这让我感到非常痛苦.运行“mvncleaninstall”后,javaws似乎加载了几秒钟然后退出.以下是一些可供参考的内容.我(非常简单)的项目应该是完全可重现的:包结构(来自树):主要pom.xml:Sw

  6. java – 如何使用Open nlp的分块解析器提取名词短语

    我是自然语言处理的新手,我需要从文本中提取出名词短语.我远在我使用opennlp的分块解析器来解析我的文本以获取Tree结构.但是我无法从树结构,在开放nlp中是否有任何正则表达式模式,以便我可以使用它来提取名词短语.以下是我正在使用的代码在这里我得到的输出))有些人可以帮我取得名词短语,如NP,NNP,NN等.有些人可以告诉我,我需要使用任何其他的NPChunker来获得名词短语吗?

  7. 使用JWS JNLP为JavaFX应用程序创建桌面图标

    我正在尝试为我的应用程序显示一个自定义destop图标,但由于某些原因,无论我做什么,都会显示相同的默认java图标.我已经尝试了所有我能想到的东西,并将我的jnlp文件与其图标似乎正常工作的其他人进行了比较.根据我读过的所有内容,以下内容应该可以正常工作.但当然,它没有:任何想法将不胜感激.解决方法我会按顺序尝试以下方法:>创建一个32×32大小的图标,并将其添加为附加

  8. Java jnlp应用程序被安全设置阻止

    我有一个企业级的Java应用程序,它有大量的jars,通过jnlp文件下载到客户端的jvm缓存中.当我启动应用程序时,我在Java控制台上得到以下堆栈跟踪:我的JNLP文件像以下一些审查描述:还要注意,我在更多的信息面板上获得了一些不同的例外细节:我对java控制面板的安全性没有任何安全限制.中等水平如下:感谢任何帮助新编辑:当我尝试从jvm1.6机器运行这个jnlp时,我得到了更多的说明stac

  9. JNLP应使用特定的Java版本,但会出现错误结果

    我在这里面临一个问题.我想使用特殊版本来运行我们的javawebstart应用程序,但只需要一个jnlp.(“经过测试,…blabla我们不能使用新版本…blabla”随机风袋)所以我试着像这样配置我们的JNLP:当我开始这个jnlp时,即使安装了正确的Java,我也会得到以下错误:Error:TheapplicationhasrequestedaversionoftheJRE(version1.

返回
顶部