PySpark 问答列表

简单查询 pyspark 中 GC 开销的原因是什么?

作者:Марсель Абдуллин 提问时间:11/17/2023

我使用apache iceberg作为数据格式执行查询 表的 DDL(类似于 raw 和 ods) CREATE TABLE ods.kafka_trbMetaEventTopic_v1 ( o...

将一些日志从 kafka 主题获取到 spark 中,并将其发送到 elasticsearch

作者:Ilyas Ch 提问时间:11/17/2023

我正在尝试通过apache spark将一些数据从apache kafka发送到elasticsearch,现在我正在测试管道,但仍然遇到一些错误,最终我将构建一个机器学习模型来对spark中的传入数...

在 Kubernetes 上运行 Spark 教程 [已关闭]

作者:Nguyễn Quốc Nhật Minh 提问时间:11/17/2023

已关闭。这个问题需要更加集中。它目前不接受答案。 想改进这个问题吗?更新问题,使其仅通过编辑这篇文章来关注一个问题。 2天前关闭。 改进此问题 我正在学习在 k8s (minikube) 上创...

如何执行 T-SQL 操作 UPDATE ...设置。。。在 Pyspark 中?

作者:ByUnal 提问时间:11/16/2023

我有需要在pyspark中编码的T-SQL查询。但是,Pyspark 并不支持所有 SQL 操作,因此您必须相应地构建自己的逻辑。我已经设法转换了许多查询,但我无法确定如何在Pyspark中执行此操作...

如果当前值为 null,则获取上一个非 null 值 - Azure Databricks

作者:John Bryan 提问时间:11/16/2023

我有一个表,其中包含以下值 ID Date FinalDate 1 20120101 NULL 1 20120201 20120201 1 20120301 NULL 1 20120401 2012...

Spark :为什么它不起作用并给我 Py4JJavaError,但是当我添加查找 spark 时它有效?

作者:Dan Albert 提问时间:11/17/2023

我有这个代码 from pyspark.sql import SparkSession # Create a Spark session spark = SparkSession.builder...

对布尔值进行过滤时出现奇怪的 pyspark 行为

作者:rouble 提问时间:11/17/2023

我们有一些现有的代码曾经在 Spark 3.1 中工作,现在在 Spark 3.3 中不起作用。这真的是微不足道的代码,所以它让我大吃一惊为什么过滤器不起作用: widgets_df = widge...

复杂的嵌套 json 结构,所有内容仅表示一行,数组中的重复元素需要在同一行中展平

作者:Filomeno Gonzalez 提问时间:11/17/2023

我有一个复杂的嵌套 json 结构文件,其中 100% 的元素(数组和结构)必须展平为相同的行。因此,每个 json 文件都是一行。10 个 Json 文件 = 10 行。下面是 json 文件的示例...

在 PySpark 中将聚合流数据帧与流数据帧联接

作者:Ravi Kiran.M 提问时间:11/17/2023

这是我尝试运行的代码 streaming_df = ( spark.readStream .option("option1", "value1") ) agg_df = ( streamin...

我正在尝试将数据帧写入 s3 中的单个文件,并在 pyspark 中使用所需的文件名。我能够在 scala 中执行此操作,但在 py 中给出以下错误

作者:Ronnie 提问时间:11/16/2023

我的 pyspark 代码尝试创建一个 DataFrame 并将 DataFrame 写入 s3 位置。完成此操作后,我将有一个名称为 part-*** 的文件,我正在尝试使用 hadoop 文件实用...


共98条 当前第5页