提问人:Terryb 提问时间:9/27/2023 最后编辑:OneCricketeerTerryb 更新时间:10/3/2023 访问量:41
使用 R 从非常大的 CSV 创建 Parquet 文件夹
Creating a Parquet Folder from a very large CSV with R
问:
我正在尝试使用 R 处理 200GB 的 csv。我正在探索箭头包,并且已经能够使用 open_dataset() 函数指向该文件。
arrow_data <- open_dataset(
sources = large.csv",
format = "csv",
schema = schema(
col1 = string(),
col2 = string(),
col3 = string(),
col4 = string())
我想将数据输出到 parquet 文件夹,以便对数据进行进一步的有效分析。下面的代码看起来是我需要做的,其中write_dataset将在group_var列中为值创建一个文件夹。
arrow_data %>%
group_by(group_var) %>%
write_dataset(path = pq_path, format = "parquet")
但是,当我运行它时,它会生成几个文件夹,然后失败并出现以下错误。
Error: Invalid: In CSV column #3: Row #12250498: CSV conversion error to string: invalid UTF8 data
在线建议是预先清理 csv,但是,考虑到大小,如何做到这一点似乎很困难,而且我无法有效地阅读它。
谁能就我如何继续提供一些指导?
答: 暂无答案
评论