parquet 问答列表

Spark3.2 以 spark2.3.1 格式写入 parquet 文件

作者:Prem S 提问时间:2/2/2023

大家好,由于第三方阅读器,我遇到了新问题。 我已经通过 spark 3.2 编写了 parquet 文件,但 Dremio 20.4 版本无法读取这些 parquet 文件。我想知道我们在 spark...

加载 parquet 文件时筛选器中的布尔逻辑

作者:3UqU57GnaX 提问时间:6/14/2023

我想删除 1900 年出生但尚未死亡的人。 下面的代码可以工作,但我需要两个过滤器来删除特定行。有没有更简单的方法来删除一个筛选器的行? 要重现的最少代码: import pandas as p...

读取 .parquet 文件时出现 OOM 错误。我该如何解决这个问题?

作者:mdein 提问时间:8/18/2023

我正在从事一个 ETL 项目。为此,我正在尝试读取 .parquet 文件,以便查看、转换数据并上传它。 我一直在失败,因为我在阅读它时总是得到一个“OOM 错误”。 有什么方法可以在本地阅读吗? ...

具有列定义的 parquet 文件中的 Synapse CETAS 失败

作者:Jean-Christophe 提问时间:9/5/2023

在 Synapse 管道中,我尝试使用之前生成的 parquet 文件(从 Azure SQL 数据库)中的 CETAS 脚本活动。 源数据库包含一些包含 LOB 列(xml 类型)的表,因此默认的 ...

使用 R 从非常大的 CSV 创建 Parquet 文件夹

作者:Terryb 提问时间:9/27/2023

我正在尝试使用 R 处理 200GB 的 csv。我正在探索箭头包,并且已经能够使用 open_dataset() 函数指向该文件。 arrow_data <- open_dataset( sou...

Direct Parquet 源 (Spark Engine) 与“SQL-Select 外部表(指向该 Parquet)on Serverless SQL”源 (SQL Engine)

作者:Hernán 提问时间:10/9/2023

在管道中,在数据流中,我可以用作源: Parquet 文件 或对无服务器 SQL 上的外部表进行 SQL 查询,该表指向 Parquet 文件 假设接收器是另一个 parquet 文件,这两个选项...

在 BQ off 分区 parquet 文件中创建外部表时出错

作者:Frank Pinto 提问时间:11/8/2023

我正在尝试在 BigQuery 中根据 GCS 中找到的分区 parquet 数据创建一个外部表。我通过运行以下 SQL 语句来执行此操作: CREATE OR REPLACE EXTERNAL T...

PySpark:无法将 MutableLong 转换为 MutableInt

作者:anonymus1205 提问时间:11/8/2023

我正在尝试使用 PySpark 和 Glue API 从 AWS Glue 作业中读取多个 parquet 文件,如下所示: snapshot_as_dynamic_frame = glueCont...

无法将 parquet 数据从 S3 复制到 redshift

作者:Sam Gilbert 提问时间:11/7/2023

我希望能够将 parquet 数据从 S3 复制到 Redshift。 我尝试了以下代码: -- Part 1: Unload SET search_path TO my_schema_from;...

如何在 python 中将 3d xarray 导出为 parquet 文件

作者:oblongcalculator 提问时间:11/15/2023

我有多个 3D xarrays(和以前的 numpy 数组),我希望将它们导出为 parquet 文件,以便以后能够快速导入它们。是否有可能做到这一点,因为从外观上看,镶木地板文件更喜欢 2D 输入?...


共12条 当前第1页