在 AWS 上使用 flintrock 启动 Spark 集群时,如何解决此错误?
作者:Eric Mariasis 提问时间:11/16/2023
我已按照此处详述的说明尝试使用 flintrock 通过 AWS 上的 EC2 实例创建 Spark 集群。作为背景,我正在做的最终目标是跨 4 个 EC2 实例并行化 Spark 上的操作,并在主节...
apache-Spark 问答列表
作者:Eric Mariasis 提问时间:11/16/2023
我已按照此处详述的说明尝试使用 flintrock 通过 AWS 上的 EC2 实例创建 Spark 集群。作为背景,我正在做的最终目标是跨 4 个 EC2 实例并行化 Spark 上的操作,并在主节...
作者:Ronnie 提问时间:11/16/2023
我的 pyspark 代码尝试创建一个 DataFrame 并将 DataFrame 写入 s3 位置。完成此操作后,我将有一个名称为 part-*** 的文件,我正在尝试使用 hadoop 文件实用...
作者:anmol hans 提问时间:9/27/2023
我有一个表,它有一个名为的列,其中包含这种格式的数据actual_result 列中的示例数据,每行值由下面的管道分隔符分隔:actual_result > actual_result ++ |{...
作者:Sanjeev Kumar 提问时间:11/16/2023
要求是从多个 GCP BQ 表中读取数据,执行大量转换,然后将其加载回 GCP BQ 中的目标表。我们如何以编程方式实现它。 通过使用一组 PL/SQL,可以直接在 BQ 中完成对 GCP BQ 的...
作者:Smaillns 提问时间:4/6/2022
我有以下数据帧 root |-- AUTHOR_ID: integer (nullable = false) |-- Books: array (nullable = true) | |-...
作者:Arturo Sbr 提问时间:6/3/2023
我外部连接了两个和操作的结果,并最终得到了这个数据帧():groupBycollect_setfoo >>> foo.show(3) +---+------+------+ | id| c1| c2...
作者:Sachin 提问时间:5/27/2023
我有一个名为 details 的列,它具有特殊字符,因为我想用 替换它。如何在 spark Java 中做到这一点?|- 我试过: regex_replace(details ,"|","-") ...
作者:Some Name 提问时间:11/10/2018
我在Spark网页(与yarn一起使用)中具有以下阶段: 我对重试 1、重试 2 感到惊讶的事情。是什么原因导致了这样的事情?Stage 0 我试图自己重现它并杀死了我的一台集群机器上的所有执行器...
作者:Stefan Ss 提问时间:3/15/2023
我有一个从上午 10 点开始的火花作业,并在 14 小时(凌晨 12 点)的阈值后被杀死。问题是,当我进入 WEB UI 时,总正常运行时间(在它被杀死之前,13 小时和 40 分钟后)是 9.5 小...
作者:Prem S 提问时间:2/2/2023
大家好,由于第三方阅读器,我遇到了新问题。 我已经通过 spark 3.2 编写了 parquet 文件,但 Dremio 20.4 版本无法读取这些 parquet 文件。我想知道我们在 spark...