提问人:Conner M. 提问时间:8/20/2018 更新时间:8/20/2018 访问量:8148
R - 读取大文件时如何处理“输入连接上发现无效输入”警告?
R - How to deal with "invalid input found on input connection" warning while reading in large file?
问:
我有一个大(1m+ 行).txt 文件,我正在读入 R。每一行都是新闻故事的摘录,该故事使用了原始来源的字符,这引起了问题。有些行将包含所有 ASCII 字符,而其他行则没有,但确实适合 UTF-8 编码框架。还有一些字符(类似于 Dingbats)似乎无视所有编码,编码字符也是如此。
我能够使用 Notepad++ 清除编码字符,但每次我尝试将完整数据集读入 R 时,read 或 readLines 函数只能读取它无法解释的第一个字符。
> con <- file(description=filepath, open="r", encoding = "UTF-8")
> news <- readLines(con, n = 100000)
invalid input found on input connection 'en_US/en_US_news.txt' # warning message not error
无效的输入消息似乎只是一个警告,但 R 只读入第一个“难以辨认”的字符。我尝试写入 .txt 文件以查看它停止在哪个字符上,但像这样手动清理文件是不现实的。news
如何在循环中使用 or 跳过任何具有难以辨认字符的行?try()
trycatch()
答: 暂无答案
评论
fread()