解析嵌套 XML 并将数据展平为行 - PySpark
作者:AJR 提问时间:12/23/2022
我有一个复杂的 xml 文件,需要使用 PySpark 解析和展平。我将利用 AWS Glue 和 Spark 框架来完成此任务。我可以将我的 xml 文件转换为 spark 数据帧,但我需要展平数据...
apache-spark 问答列表
作者:AJR 提问时间:12/23/2022
我有一个复杂的 xml 文件,需要使用 PySpark 解析和展平。我将利用 AWS Glue 和 Spark 框架来完成此任务。我可以将我的 xml 文件转换为 spark 数据帧,但我需要展平数据...
作者:Yannick Widmer 提问时间:11/16/2022
当我将python浮点数77422223.0转换为spark FloatType时,我得到77422224。如果我使用 DoubleType 这样做,我会得到77422223。这种转换是如何工作的,有...
作者:pathikrit 提问时间:9/1/2017
我查看了文档,它说支持以下连接类型: 要执行的联接类型。默认内部。必须是以下之一:内部、交叉、 外、满、full_outer、左、left_outer、右、right_outer、 left_sem...
作者:Joe 提问时间:6/22/2023
我在 postgres db 中有 2 个表,我需要将它们加入并将生成的输出发送到 kafka。为此,我编写了一个使用 spark 框架的 java 代码。我的代码示例如下: 主类: privat...
作者:YAKOVM 提问时间:1/6/2016
我需要测量 Apache spark (Bluemix) 上查询的执行时间。 我尝试过: import time startTimeQuery = time.clock() df = sqlCon...
作者:Eric Thomas 提问时间:1/2/2018
我有一个包含混合内容的 XML 文档,我正在使用 Dataframe 中的自定义架构来解析它。我遇到了一个问题,即架构只会获取“度量”的文本。 XML 如下所示 <QData> <Measure...
作者:Peewee 733 提问时间:8/3/2020
我正在尝试使用 Scala Mongo 连接器将大型 Mongo 集合加载到 Apache Spark 中。 我正在使用以下版本: libraryDependencies += "org.apac...
作者:pintoch 提问时间:5/2/2020
Java 中匿名函数(或闭包)的序列化经常会失败,因为对不可序列化对象的虚假引用。例如,在对象中声明的匿名类如果未标记为 ,则形式上依赖于该对象,即使它不依赖于对象中的任何方法或属性。static ...
作者:Anis Smail 提问时间:10/23/2017
此 spark sql 代码编译并运行,但 intelliJ (idea-IU-172.4343.14) 显示“Ambigious 方法调用”错误。 public static void main(...
作者:Shekar Tippur 提问时间:8/7/2018
我正在使用 pyspark 将 csv 加载到 redshift。我想查询一下 manny 行是如何添加的。 我使用以下函数创建一个新列:withcolumn csvdata=df.withColu...