R - 读取大文件时如何处理“输入连接上发现无效输入”警告?

R - How to deal with "invalid input found on input connection" warning while reading in large file?

提问人:Conner M. 提问时间:8/20/2018 更新时间:8/20/2018 访问量:8148

问:

我有一个大(1m+ 行).txt 文件,我正在读入 R。每一行都是新闻故事的摘录,该故事使用了原始来源的字符,这引起了问题。有些行将包含所有 ASCII 字符,而其他行则没有,但确实适合 UTF-8 编码框架。还有一些字符(类似于 Dingbats)似乎无视所有编码,编码字符也是如此。

我能够使用 Notepad++ 清除编码字符,但每次我尝试将完整数据集读入 R 时,read 或 readLines 函数只能读取它无法解释的第一个字符。

> con <- file(description=filepath, open="r", encoding = "UTF-8")
> news <- readLines(con, n = 100000)
invalid input found on input connection 'en_US/en_US_news.txt' # warning message not error

无效的输入消息似乎只是一个警告,但 R 只读入第一个“难以辨认”的字符。我尝试写入 .txt 文件以查看它停止在哪个字符上,但像这样手动清理文件是不现实的。news

如何在循环中使用 or 跳过任何具有难以辨认字符的行?try()trycatch()

R 正则表达式 文本 特殊字符

评论

0赞 s_baldur 8/20/2018
您是否尝试过或类似方法?fread()
0赞 Rick James 8/24/2018
你能得到顽皮文字的十六进制吗?

答: 暂无答案