是否可以有效地从大型固定宽度的 CSV 文件中获取行的子集?
作者:Many Questions 提问时间:4/26/2022
我有一个非常大的固定宽度 CSV 文件(130 万行和 80K 列)。它的大小约为 230 GB。我需要能够获取这些行的子集。我有一个我需要的行索引向量。但是,我现在需要弄清楚如何遍历如此庞大的文件来...
csv 问答列表
作者:Many Questions 提问时间:4/26/2022
我有一个非常大的固定宽度 CSV 文件(130 万行和 80K 列)。它的大小约为 230 GB。我需要能够获取这些行的子集。我有一个我需要的行索引向量。但是,我现在需要弄清楚如何遍历如此庞大的文件来...
作者:db0 提问时间:3/31/2023
我正在尝试使用 Python 脚本优化客户端的读/写任务。他们必须将数据放在 csv 文件中,即使我建议使用 parquet 文件。我的代码从 sql 数据库读取到 DataFrame,然后从 Dat...
作者:Nate 提问时间:10/27/2023
我的任务是更新一些远程服务器上的一些证书。我们有大量的服务器,但并非所有服务器都安装了这些证书。 让一个短篇小说变得很长...... 我正在寻找 2 个不同的证书,我们称之为 DevCert 和 ...
作者:SaadK 提问时间:6/24/2019
我有数以千计的 CSV 文件,这些文件在单个目录下具有相似但不相同的标头。结构如下: 路径/到/文件/unique_parent_directory/*.csv 一个 csv 文件可以是: |C...
作者:ychaulagain 提问时间:12/24/2022
我必须读取一个包含大约 700,000 条记录的大型 CSV 文件,并将 CSV 数据与 API 响应进行比较。我能够使用 OpenCSV 并使代码正常工作。但是,反序列化过程非常缓慢。仅反序列化数据...
作者:iDaniel19 提问时间:3/10/2023
我有一个格式如下的 CSV 文档: NOT_HEADER1|NOT_HEADER2|NOT_HEADER3... HEADER1|HEADER2|HEADER3|HEADER4|HEADER5|HE...
作者:DevError404 提问时间:5/30/2023
我想逐个读取 csv 文件行,并对它们执行第三方调用。但是当我暂停流时,它会在我的响应之前恢复。 const csv = require('csv-parser'); const readStrea...
作者:Sumanta 提问时间:8/11/2023
我有一个非常大的CSV文件。我想通过 Pyspark 阅读它,但我无法正确阅读它。 示例 csv 为 "keyvalue","rto","state","maker_model","veh_typ...
作者:Nacho 提问时间:11/9/2022
我有一个csv。它包括每天每半小时的记录值。 我想用半小时的时间块(用“系统睡眠”文本分隔),并将每个分隔的块保存为一个独立的.csv文件,以便进一步分析。 我当前的代码;slice df <- r...
作者:Bakira 提问时间:4/28/2023
我有一个格式如下的.csv文件: Cash Serial,Date,Balance 1,2021-03-05,34 2,2021-05-04,54 Credit Serial,Date,Balanc...