将数据帧写入具有大量标点符号的 csv 文件 - 但将其分解为多行

Writing a dataframe to a csv file that has a lot of punctuation - but getting it broken into multiple rows

提问人:user17661126 提问时间:1/5/2023 更新时间:1/5/2023 访问量:45

问:

我有这个数据框,只有一个 URL:

df <- data.frame("url" = "http://www.nycourts.gov/reporter/3dseries/2011/2011_00286.htm", "text" = "")

我正在尝试获取网页的整个文本(包括 HTML 标签)并将其保存到 CSV 文件中。

我试过:

df$text[1] <- getURL(url=df$url[1])

df$text[1] <- paste(readLines(df$url[1]), collapse="")

这些工作正常,问题是当我尝试将其保存到 CSV 时。我用过:

write.csv(df, "file.csv")
write_csv(df, "file.csv")
write_delim(df1, "file.csv", delim = ",")

但是,生成的 csv 并不包含一行中“文本”列中的所有文本。相反,根据我使用的写入函数,它会将其保存在不同的行/列中。

我试过玩write_delim的报价和转义参数,但没有任何效果。我不明白这个网址中的文字出了什么问题。

HTML R 导出到 CSV 报价

评论

1赞 Edward 1/5/2023
为什么说输出“file.csv”文件具有“不同的行/列”?您是否正在使用 Excel 打开此文本文件?当我在记事本中查看此文件时,对我来说效果很好。
0赞 user17661126 1/5/2023
是的,我一直在使用 Excel。但是当我没有打开csv文件,后来用read.csv读取它时,也会发生这种情况,从而产生一个包含更多行的新数据帧。
2赞 Edward 1/5/2023
您的问题不在于 R,而在于 Excel,它对任何单元格中可以存在的字符数有限制 (32,767)。网址中的文本包含的内容远不止于此。

答: 暂无答案