apache-Spark 问答列表

解析嵌套 XML 并将数据展平为行 - PySpark

作者:AJR 提问时间:12/23/2022

我有一个复杂的 xml 文件,需要使用 PySpark 解析和展平。我将利用 AWS Glue 和 Spark 框架来完成此任务。我可以将我的 xml 文件转换为 spark 数据帧,但我需要展平数据...

了解 pyspark 的 Float 转换行为

作者:Yannick Widmer 提问时间:11/16/2022

当我将python浮点数77422223.0转换为spark FloatType时,我得到77422224。如果我使用 DoubleType 这样做,我会得到77422223。这种转换是如何工作的,有...

Spark 中有哪些不同的连接类型?

作者:pathikrit 提问时间:9/1/2017

我查看了文档,它说支持以下连接类型: 要执行的联接类型。默认内部。必须是以下之一:内部、交叉、 外、满、full_outer、左、left_outer、右、right_outer、 left_sem...

是否可以让执行程序评估查询的一部分,而不是在 spark java 中首先主查找整个结果集?

作者:Joe 提问时间:6/22/2023

我在 postgres db 中有 2 个表,我需要将它们加入并将生成的输出发送到 kafka。为此,我编写了一个使用 spark 框架的 java 代码。我的代码示例如下: 主类: privat...

如何在 Spark 上测量查询的执行时间

作者:YAKOVM 提问时间:1/6/2016

我需要测量 Apache spark (Bluemix) 上查询的执行时间。 我尝试过: import time startTimeQuery = time.clock() df = sqlCon...

使用 DataFrame 进行混合内容 XML 分析

作者:Eric Thomas 提问时间:1/2/2018

我有一个包含混合内容的 XML 文档,我正在使用 Dataframe 中的自定义架构来解析它。我遇到了一个问题,即架构只会获取“度量”的文本。 XML 如下所示 <QData> <Measure...

将 Mongo 集合加载为 Spark 数据集时,如何在架构中指定 BigDecimal 小数位数和精度

作者:Peewee 733 提问时间:8/3/2020

我正在尝试使用 Scala Mongo 连接器将大型 Mongo 集合加载到 Apache Spark 中。 我正在使用以下版本: libraryDependencies += "org.apac...

在 Java 中清理闭包的序列化

作者:pintoch 提问时间:5/2/2020

Java 中匿名函数(或闭包)的序列化经常会失败,因为对不可序列化对象的虚假引用。例如,在对象中声明的匿名类如果未标记为 ,则形式上依赖于该对象,即使它不依赖于对象中的任何方法或属性。static ...

使用 spark sql 的 intelliJ 上不相关的歧义方法调用错误

作者:Anis Smail 提问时间:10/23/2017

此 spark sql 代码编译并运行,但 intelliJ (idea-IU-172.4343.14) 显示“Ambigious 方法调用”错误。 public static void main(...

带有 where 子句的 pyspark sql 抛出列不存在错误

作者:Shekar Tippur 提问时间:8/7/2018

我正在使用 pyspark 将 csv 加载到 redshift。我想查询一下 manny 行是如何添加的。 我使用以下函数创建一个新列:withcolumn csvdata=df.withColu...


共80条 当前第6页