WinXP-x32,R-2.13.0

亲爱的名单,

我有一个问题(我认为)涉及到Windows和R之间的交互.

我正在试图用夏威夷群岛的数据来抄表.这是我的R代码:

library(XML)
u <- "http://en.wikipedia.org/wiki/Hawaii"
tables <- readHTMLTable(u)
Islands <- tables[[5]]

输出是(第一列):

06001

Island 19°34′N 155°30′W /
19.567°N 155.5°W / 19.567;
-155.5 2 Maui[8] The Valley Isle 20°48′N 156°20′W /
20.8°N 156.333°W / 20.8;
-156.333 3 Kahoʻolawe[9] The Target Isle 20°33′N
156°36′W / 20.55°N
156.6°W / 20.55; -156.6 4 LÄnaÊ»i[10] The Pineapple Isle
20°50′N 156°56′W /
20.833°N 156.933°W / 20.833;
-156.933 5 Molokaʻi[11] The Friendly Isle 21°08′N
157°02′W / 21.133°N
157.033°W / 21.133; -157.033 6 Oʻahu[12] The Gathering Place
21°28′N 157°59′W /
21.467°N 157.983°W / 21.467;
-157.983 7 Kauaʻi[13] The Garden Isle 22°05′N
159°30′W / 22.083°N
159.5°W / 22.083; -159.5 8 Niʻihau[14] The Forbidden Isle
21°54′N 160°10′W / 21.9°N
160.167°W / 21.9; -160.167

正如你所看到的,那里有“奇怪”的字符.我也试过readHTMLTable(u,encoding =“UTF-16”)和readHTMLTable(u,encoding =“UTF-8”)
但这没有帮助.

在我看来,字符集和R的Windows设置的交互可能会有一个问题.

sessionInfo()给出

> sessionInfo()
R version 2.13.0 (2011-04-13)
Platform: i386-pc-mingw32/i386 (32-bit)

locale:
[1] LC_COLLATE=Dutch_Netherlands.1252  LC_CTYPE=Dutch_Netherlands.1252    LC_MONETARY=Dutch_Netherlands.1252
[4] LC_NUMERIC=C                       LC_TIME=Dutch_Netherlands.1252  

attached base packages:
[1] stats     graphics  Grdevices utils     datasets  methods   base    

other attached packages:
[1] XML_3.2-0.2

我也试图让R使用另一个设置输入:Sys.setlocale(“LC_ALL”,“en_US.UTF-8”),但这会产生响应:

> Sys.setlocale("LC_ALL","en_US.UTF-8")
[1] ""
Warning message:
In Sys.setlocale("LC_ALL","en_US.UTF-8") :
  OS reports request to set locale to "en_US.UTF-8" cannot be honored

另外,我已经尝试直接从Windows命令提示符,使用:chcp 65001和其中的变体,但没有改变任何东西.

我注意到从网络上搜索其他人也有问题,但还没有找到解决方案.我看起来这是一个Windows和R如何交互的问题.不幸的是,我掌握的这三台电脑都有这个问题.它发生在WinXP-x32和Win7-x86下.

有没有办法使R覆盖Windows设置,否则可以解决问题?
我也尝试过其他网站,每次在文本中都有é,ü,ä,î等等时,就会出现这个问题.

谢谢,
罗杰

不是一个答案:

如果您浏览维基百科页面,并将浏览器中的编码(IE,View – > Encoding;在Firefox中,View – > Character Encoding)更改为Western(ISO-8869-1)或Western(Windows-1252)那么你会看到愚蠢的人物.这应该意味着您可以使用iconv来更改编码并解决您的问题.

#Convert factors to character
Islands <- as.data.frame(lapply(Islands,as.character),stringsAsFactors = FALSE)

iconv(Islands$Island,"windows-1252","UTF-8")

不幸的是,它不起作用可能通过使用不同的转换来获取正确的文本(iconvlist()显示所有的可能性).

这可能只是剥夺了冒犯的人物,虽然这不是理想的.

iconv(Islands$Island,"ASCII","")

奇怪的人物:R和Windows语言环境的互动?的更多相关文章

  1. linux下为php添加iconv模块的方法

    这篇文章主要介绍了linux下为php添加iconv模块的方法,需要的朋友可以参考下

  2. 使用android studio开发工具编译GBK转换三方库iconv的方法

    这篇文章主要介绍了使用android studio开发工具编译GBK转换三方库iconv的教程,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

  3. R语言绘制条形图及分布密度图代码总结

    这篇文章主要为大家介绍了R语言条形图及分布密度图代码总结,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  4. 如何在R Windows中将Unicode字符串写入文本文件?

    l10n_info)中,输出文件“yes-iconv”,“latin”和“unkNown”应该是正确的.在“UTF-8”语言环境中,文件“no-iconv”和“unkNown”应该是正确的.示例代码的输出如下,使用在Wine上运行的R3.3.264位Windows版本:在原始示例中,iconv()使用默认的from=“”参数,这意味着从当前语言环境转换,这实际上是“latin1”.因为str的编码实际上是“UTF-8”,所以字符串的字节表示在步骤中失真,但是当它(可能)将字符串转换回当前语言环境时,由ca

  5. 在php中将UTF-16LE转换为UTF-8

    我使用iconvPHP函数,但有些字符无法正确转换:我也尝试mb_convert_encoding函数,但无法解决我的问题.示例文本文件:9px.ir/utf8-16LE.rariconvsupportstheUTF-16LEencoding.您可以使用它将UTF-16LE的编码转换为UTF-8:见iconvDocs.我只是想知道UTF-16LE中可用的所有代码点是否在UTF-8中可用.但我认为这

  6. zend-framework – lucene文本搜索的无效字符

    在我的IndexController上我有我收到了错误和变量包含从维基百科复制的文本数组,我收到错误的字符–(不是–)和我得到错误(我相信).我在Luceneforeigncharsproblem得到了类似的相关问题,但没有解释在哪里做什么.如果我知道该做什么以及一点点解释,我将不胜感激最新通报::的iconv尝试将此添加到您的引导程序:

  7. php – 我可以使用iconv将多字节智能引号转换为扩展的ASCII智能引号吗?

    我有一些UTF-8内容,包括多字节智能引号字符.我发现这段代码很容易将这些字符转换成ASCII直引号:要么但是,我宁愿将它们转换为扩展的ASCII智能引号.有谁知道如何做到这一点?你在寻找CP-1252,它包含0x91-0x94的“曲线引号”.

  8. 奇怪的人物:R和Windows语言环境的互动?

    我也尝试过其他网站,每次在文本中都有é,ü,,等等时,就会出现这个问题.谢谢,罗杰不是一个答案:如果您浏览维基百科页面,并将浏览器中的编码更改为Western或Western那么你会看到愚蠢的人物.这应该意味着您可以使用iconv来更改编码并解决您的问题.不幸的是,它不起作用可能通过使用不同的转换来获取正确的文本.这可能只是剥夺了冒犯的人物,虽然这不是理想的.

  9. php – iconv():检测到输入字符串中不完整的多字节字符

    嗨,我在陷阱周围看到了这个问题,但到目前为止,我所看到的所有例子都没有帮助过我.我收到错误“iconv():在输入字符串中检测到一个不完整的多字节字符”,在某些输入上.何时一起使用以下功能.您对如何使此错误消息消失有任何想法吗?我试图将具有混合编码的输入字符串转换为UTF8.编辑:大家好看了下面为我们工作的以下内容:您可能能够改进它,但它修复了我们的错误.好的,这就是对我们有用的东西.

  10. R语言:正则表达式的使用基于网页抓取

    原文链接——————————————————————————————————R语言:正则表达式的使用有时候我们要处理的是非结构化的数据,例如网页或是电邮资料,那么就需要用R来抓取所需的字符串,整理为进一步处理的数据形式。其实学习正则表达式并没有想像中的那么困难。本文假设你对正则表达式有了基本的了解,下面我们来看看如何在R里面来使用它。R语言中很多字符函数都能识别正则表达式,而最重要的函数就是gregexpr()。

随机推荐

  1. static – 在页面之间共享数据的最佳实践

    我想知道在UWP的页面之间发送像’selectedItem’等变量的最佳做法是什么?创建一个每个页面都知道的静态全局变量类是一个好主意吗?

  2. .net – 为Windows窗体控件提供百分比宽度/高度

    WindowsForm开发的新手,但在Web开发方面经验丰富.有没有办法为Windows窗体控件指定百分比宽度/高度,以便在用户调整窗口大小时扩展/缩小?当窗口调整大小时,可以编写代码来改变控件的宽度/高度,但我希望有更好的方法,比如在HTML/CSS中.在那儿?

  3. 使用Windows Azure查询表存储数据

    我需要使用特定帐户吗?>将应用程序部署到Azure服务后,如何查询数据?GoogleAppEngine有一个数据查看器/查询工具,Azure有类似的东西吗?>您可以看到的sqlExpressintance仅在开发结构中,并且一旦您表示没有等效,所以请小心使用它.>您可以尝试使用Linqpad查询表格.看看JamieThomson的thispost.

  4. windows – SetupDiGetClassDevs是否与文档中的设备实例ID一起使用?

    有没有更好的方法可以使用DBT_DEVICEARRIVAL事件中的数据获取设备的更多信息?您似乎必须指定DIGCF_ALLCLASSES标志以查找与给定设备实例ID匹配的所有类,或者指定ClassGuid并使用DIGCF_DEFAULT标志.这对我有用:带输出:

  5. Windows Live ID是OpenID提供商吗?

    不,WindowsLiveID不是OpenID提供商.他们使用专有协议.自从他们的“测试版”期结束以来,他们从未宣布计划继续它.

  6. 如果我在代码中进行了更改,是否需要重新安装Windows服务?

    我写了一个Windows服务并安装它.现在我对代码进行了一些更改并重新构建了解决方案.我还应该重新安装服务吗?不,只需停止它,替换文件,然后重新启动它.

  7. 带有双引号的字符串回显使用Windows批处理输出文件

    我正在尝试使用Windows批处理文件重写配置文件.我循环遍历文件的行并查找我想要用指定的新行替换的行.我有一个’函数’将行写入文件问题是%Text%是一个嵌入双引号的字符串.然后失败了.可能还有其他角色也会导致失败.如何才能使用配置文件中的所有文本?尝试将所有“在文本中替换为^”.^是转义字符,因此“将被视为常规字符你可以尝试以下方法:其他可能导致错误的字符是:

  8. .net – 将控制台应用程序转换为服务?

    我正在寻找不同的优势/劣势,将我们长期使用的控制台应用程序转换为Windows服务.我们为ActiveMQ使用了一个叫做java服务包装器的东西,我相信人们告诉我你可以用它包装任何东西.这并不是说你应该用它包装任何东西;我们遇到了这个问题.控制台应用程序是一个.NET控制台应用程序,默认情况下会将大量信息记录到控制台,尽管这是可配置的.任何推荐?我们应该在VisualStudio中将其重建为服务吗?我使用“-install”/“-uninstall”开关执行此操作.例如,seehere.

  9. windows – 捕获外部程序的STDOUT和STDERR *同时*它正在执行(Ruby)

    哦,我在Windows上:-(实际上,它比我想象的要简单,这看起来很完美:…是的,它适用于Windows!

  10. windows – 当我试图批量打印变量时,为什么我得到“Echo is on”

    我想要执行一个简单的批处理文件脚本:当我在XP中运行时,它给了我预期的输出,但是当我在Vista或Windows7中运行它时,我在尝试打印值时得到“EchoisOn”.以下是程序的输出:摆脱集合表达式中的空格.等号(=)的两侧可以并且应该没有空格BTW:我通常在@echo关闭的情况下启动所有批处理文件,并以@echo结束它们,所以我可以避免将代码与批处理文件的输出混合.它只是使您的批处理文件输出更好,更清洁.

返回
顶部