提问人:Nils R 提问时间:11/13/2023 更新时间:11/13/2023 访问量:66
超大数据的数据格式,同时保留 data.table 功能
Data formats for very large data while preserving data.table functionality
问:
我有一个脚本,它生成了几个中间数据文件,这些文件将大大超过(2^31-1)中的最大行数。我的系统足够大,可以存储数据(例如,我可以存储这种大小的矩阵,但不能将它们转换为长格式),但我不知道哪种文件格式可以适当地处理数据。我想同时实现两件事:(1) 存储超过 2^31 行的数据和 (2) 在处理数据时继续使用 data.table(或类似)功能。
我知道有一些方法可以实现 (1) 如包,但我的理解是,这些文件格式需要一种完全不同的数据处理方式,从而防止 (2)。据我了解,该包不能用于“欺骗”R 并获取更多行的索引号。
基本上,我已经编写了一大堆基于 data.table 功能构建的代码,我宁愿继续使用它而不是重写所有内容。有解决办法吗?
对不起,没有可重现的例子(不确定它是否适合这个问题)。R
arrow
bit64
答: 暂无答案
评论