Spark3.2 以 spark2.3.1 格式写入 parquet 文件
作者:Prem S 提问时间:2/2/2023
大家好,由于第三方阅读器,我遇到了新问题。 我已经通过 spark 3.2 编写了 parquet 文件,但 Dremio 20.4 版本无法读取这些 parquet 文件。我想知道我们在 spark...
parquet 问答列表
作者:Prem S 提问时间:2/2/2023
大家好,由于第三方阅读器,我遇到了新问题。 我已经通过 spark 3.2 编写了 parquet 文件,但 Dremio 20.4 版本无法读取这些 parquet 文件。我想知道我们在 spark...
作者:3UqU57GnaX 提问时间:6/14/2023
我想删除 1900 年出生但尚未死亡的人。 下面的代码可以工作,但我需要两个过滤器来删除特定行。有没有更简单的方法来删除一个筛选器的行? 要重现的最少代码: import pandas as p...
作者:mdein 提问时间:8/18/2023
我正在从事一个 ETL 项目。为此,我正在尝试读取 .parquet 文件,以便查看、转换数据并上传它。 我一直在失败,因为我在阅读它时总是得到一个“OOM 错误”。 有什么方法可以在本地阅读吗? ...
作者:Jean-Christophe 提问时间:9/5/2023
在 Synapse 管道中,我尝试使用之前生成的 parquet 文件(从 Azure SQL 数据库)中的 CETAS 脚本活动。 源数据库包含一些包含 LOB 列(xml 类型)的表,因此默认的 ...
作者:Terryb 提问时间:9/27/2023
我正在尝试使用 R 处理 200GB 的 csv。我正在探索箭头包,并且已经能够使用 open_dataset() 函数指向该文件。 arrow_data <- open_dataset( sou...
作者:Hernán 提问时间:10/9/2023
在管道中,在数据流中,我可以用作源: Parquet 文件 或对无服务器 SQL 上的外部表进行 SQL 查询,该表指向 Parquet 文件 假设接收器是另一个 parquet 文件,这两个选项...
作者:Frank Pinto 提问时间:11/8/2023
我正在尝试在 BigQuery 中根据 GCS 中找到的分区 parquet 数据创建一个外部表。我通过运行以下 SQL 语句来执行此操作: CREATE OR REPLACE EXTERNAL T...
作者:anonymus1205 提问时间:11/8/2023
我正在尝试使用 PySpark 和 Glue API 从 AWS Glue 作业中读取多个 parquet 文件,如下所示: snapshot_as_dynamic_frame = glueCont...
作者:Sam Gilbert 提问时间:11/7/2023
我希望能够将 parquet 数据从 S3 复制到 Redshift。 我尝试了以下代码: -- Part 1: Unload SET search_path TO my_schema_from;...
作者:oblongcalculator 提问时间:11/15/2023
我有多个 3D xarrays(和以前的 numpy 数组),我希望将它们导出为 parquet 文件,以便以后能够快速导入它们。是否有可能做到这一点,因为从外观上看,镶木地板文件更喜欢 2D 输入?...