啦啦啦好久没写好懒,这次先不写数据库这个小表砸~其实这个问题好久好久之前的了,现在才写也是懒= =

用python写爬虫经常涉及到编码问题,本人用pycharm写代码,基本上都写这里了

一.几种常用的编码
1.utf-8
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。
pycharm下默认print显示的是utf-8,所以如果爬了一篇编码正确的文章存进了一个list里,用for逐项打印出来,是能print出中文来的.但是如果没有逐条打印是会打印出一堆乱码的.
但是pycharm写代码时默认的不是utf-8,所以如果加中文注释会报错.所以写代码之前,要在全文最前面先写上:

#coding=utf-8

也有写法是
#*-coding:utf-8-*-
如果爬文章时遇到非utf-8想print出来,先转码

2.GBK与GB2312
GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大.
很多时候字符串(string)的编码是GBK.上面说的print整个列表,类型就是string.要换成utf-8,要先换成unicode.

3.unicode
Unicode码扩展自ASCII字元集。在严格的ASCII中,每个字元用7位元表示,或者电脑上普遍使用的每字元有8位元宽;而Unicode使用全16位元字元集。这使得Unicode能够表示世界上所有的书写语言中可能用於电脑通讯的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充,可能的话,最终将代替它。考虑到ASCII是电脑中最具支配地位的标准,所以这的确是一个很高的目标。
ASCII和Unicode算基础的编码吧,要转换其他编码要通过Unicode来转换.

二.查询编码及类型
例如:

a=1
b='bbb'
c=u'ccc'
d='普通中文'
e=u'unicode中文'

查询类型就是用 type( )了,默认自带.输出结果为
a

a = u"这是个中文a"
 b = re.compile(u"这(.*?)文")
 c = b.findall(a)

匹配结果是”是个中”

另外,用sub函数时,用于代替的字段也记得换成unicode(一般python函数出来的结果都需要转码),否则会出错.

以上为看了n个博客和文档自己总结出来的东西,不保证完全理解正确,年代有点久远没法把原博客链接添上,在此谢过~

正则匹配时遇到的编码问题(unicode,gbk,utf-8,中文)的更多相关文章

  1. ios – 我可以使用AVCaptureSession将AAC流编码到内存吗?

    解决方法我最后向Apple寻求建议.似乎AVCaptureSession抓住了AAC硬件编码器,但只允许您使用它直接写入文件.您可以使用软件编码器,但您必须专门询问它而不是使用AudioConverterNew:同当然,软件编码器会占用cpu资源,但会完成工作.

  2. ios – NSString cString已被弃用.什么是替代品?

    我有另一个新手问题.我写了一段代码,将Nsstring转换为NSMutableData,以模拟一个webService结果.但事实证明,cString已被弃用.你可以帮我更换吗?这是我的代码解决方法>从字符串获取原始字节.>获取UTF8编码中这些字节的长度.>使用dataWithBytes:length:方法创建NSData对象.

  3. ios – 如何使用Unicode十六进制值(UTF-16)在Swift中表达字符串

    我想在Swift中使用十六进制值编写一个Unicode字符串.我已经阅读了字符串和字符的documentation,所以我知道我可以使用特殊的Unicode字符直接在字符串如下:版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请发送邮件至dio@foxmail.com举报,一经查实,本站将立刻删除。

  4. ios4 – xcode上的奇怪错误:解析问题Unknow类型名称’plementation’

    在线上:Xcode4说:错误解析问题UnkNow类型名称’plementation’之后有很多解析问题.但该项目在iPhone上工作.我真的不知道是什么…id=27对于我自己的项目,我用TextWrangler打开了违规文件,并用“Western”编码重新保存它们,到目前为止,还没有从LLVM/Clang得到任何进一步的问题.

  5. ios – 如何删除/解码URL百分比编码?

    我想要一个url并将其转换成更易读的格式.例如我有以下链接:我拿走了不必要的部分,并留下了“Sándor_Font”作为Nsstring.有没有什么方式将它转换成“SándorFont”,而不必输出每一个特殊字符的组合并替换字符串的每个部分?为了演示如何使用它,我写了以下示例代码:最后我要标签说“SándorFont”不是“Sándor_Font”.谢谢!

  6. 三 Swift学习之字符串和字符Strings and Characters

    Swift的String和Character类型提供了一个快速的,兼容Unicode的方式来处理代码中的文本信息。更多关于在Foundation和Cocoa中使用String的信息请查看UsingSwiftwithCocoaandObjective-C。Swift默认字符串拷贝的方式保证了在函数/方法中传递的是字符串的值。所以Swift中的字符在一个字符串中并不一定占用相同的内存空间。

  7. Swift字符unicode编码

    1、字符在C#Object语言中,字符放在单引号(')之间,但是在swift语言中,必须把字符放在双引号之间;(1)unicode编码unicode编码可以有单字节编码,双字节编码和四字节编码,它们的表现形式是"\u{n}",其中n为1到8个十六进制字符letandSign1:Character="&"letandSign2="\u{26}"letlamda1:Character=""letlam

  8. Swift语法基础:15 - Swift的Unicode使用以及标量

    接续接着说,Unicode是文本编码和表示的国际标准。它使您可以用标准格式表示来自任意语言几乎所有的字符,并能够对文本文件或网页这样的外部资源中的字符进行读写操作。Swift的字符串和字符类型是完全兼容Unicode的,它支持如下所述的一系列不同的Unicode编码。一个unicode标量是字符或者修饰符的唯一21位数(和名称),例如U+0061表示小写的拉丁字母A(“a”),U+1F425表示正面站立的鸡宝宝(“

  9. Swift学习:6.字符串和字符

    字符串字面量可以包含以下特殊字符:转义字符\0(空字符)、\\(反斜线)、\t、\n(换行符)、\r(回车符)、\"(双引号)、\'(单引号)。Unicode标量,写成\u{n},其中n为任意的一到八位十六进制数。

  10. 【swift】15-0518 自增,自减 选并 字符串的比较 Unicode

    :blet底线品牌=“小米4”var理想品牌:String?理想品牌=“iPhone6”var实际入手=(理想品牌??

随机推荐

  1. 法国电话号码的正则表达式

    我正在尝试实施一个正则表达式,允许我检查一个号码是否是一个有效的法国电话号码.一定是这样的:要么:这是我实施的但是错了……

  2. 正则表达式 – perl分裂奇怪的行为

    PSperl是5.18.0问题是量词*允许零空间,你必须使用,这意味着1或更多.请注意,F和O之间的空间正好为零.

  3. 正则表达式 – 正则表达式大于和小于

    我想匹配以下任何一个字符:或=或=.这个似乎不起作用:[/]试试这个:它匹配可选地后跟=,或者只是=自身.

  4. 如何使用正则表达式用空格替换字符之间的短划线

    我想用正则表达式替换出现在带空格的字母之间的短划线.例如,用abcd替换ab-cd以下匹配字符–字符序列,但也替换字符[即ab-cd导致d,而不是abcd,因为我希望]我如何适应以上只能取代–部分?

  5. 正则表达式 – /bb | [^ b] {2} /它是如何工作的?

    有人可以解释一下吗?我在t-shirt上看到了这个:它似乎在说:“成为或不成为”怎么样?我好像没找到’e’?

  6. 正则表达式 – 在Scala中验证电子邮件一行

    在我的代码中添加简单的电子邮件验证,我创建了以下函数:这将传递像bob@testmymail.com这样的电子邮件和bobtestmymail.com之类的失败邮件,但是带有空格字符的邮件会漏掉,就像bob@testmymail也会返回true.我可能在这里很傻……当我测试你的正则表达式并且它正在捕捉简单的电子邮件时,我检查了你的代码并看到你正在使用findFirstIn.我相信这是你的问题.findFirstIn将跳转所有空格,直到它匹配字符串中任何位置的某个序列.我相信在你的情况下,最好使用unapp

  7. 正则表达式对小字符串的暴力

    在测试小字符串时,使用正则表达式会带来性能上的好处,还是会强制它们更快?不会通过检查给定字符串的字符是否在指定范围内比使用正则表达式更快来强制它们吗?

  8. 正则表达式 – 为什么`stoutest`不是有效的正则表达式?

    isthedelimiter,thenthematch-only-onceruleof?PATTERN?

  9. 正则表达式 – 替换..与.在R

    我怎样才能替换..我尝试过类似的东西:但它并不像我希望的那样有效.尝试添加fixed=T.

  10. 正则表达式 – 如何在字符串中的特定位置添加字符?

    我正在使用记事本,并希望使用正则表达式替换在字符串中的特定位置插入一个字符.例如,在每行的第6位插入一个逗号是什么意思?如果要在第六个字符后添加字符,请使用搜索和更换从技术上讲,这将用MatchGroup1替换每行的前6个字符,后跟逗号.

返回
顶部