apache-spark知识经验-第6页-解网

作者：AJR 提问时间：12/23/2022

我有一个复杂的 xml 文件，需要使用 PySpark 解析和展平。我将利用 AWS Glue 和 Spark 框架来完成此任务。我可以将我的 xml 文件转换为 spark 数据帧，但我需要展平数据...

作者：Yannick Widmer 提问时间：11/16/2022

当我将python浮点数77422223.0转换为spark FloatType时，我得到77422224。如果我使用 DoubleType 这样做，我会得到77422223。这种转换是如何工作的，有...

作者：pathikrit 提问时间：9/1/2017

我查看了文档，它说支持以下连接类型：要执行的联接类型。默认内部。必须是以下之一：内部、交叉、外、满、full_outer、左、left_outer、右、right_outer、 left_sem...

作者：Joe 提问时间：6/22/2023

我在 postgres db 中有 2 个表，我需要将它们加入并将生成的输出发送到 kafka。为此，我编写了一个使用 spark 框架的 java 代码。我的代码示例如下：主类： privat...

作者：YAKOVM 提问时间：1/6/2016

我需要测量 Apache spark （Bluemix）上查询的执行时间。我尝试过： import time startTimeQuery = time.clock() df = sqlCon...

作者：Eric Thomas 提问时间：1/2/2018

我有一个包含混合内容的 XML 文档，我正在使用 Dataframe 中的自定义架构来解析它。我遇到了一个问题，即架构只会获取“度量”的文本。 XML 如下所示 <QData> <Measure...

作者：Peewee 733 提问时间：8/3/2020

我正在尝试使用 Scala Mongo 连接器将大型 Mongo 集合加载到 Apache Spark 中。我正在使用以下版本： libraryDependencies += "org.apac...

作者：pintoch 提问时间：5/2/2020

Java 中匿名函数（或闭包）的序列化经常会失败，因为对不可序列化对象的虚假引用。例如，在对象中声明的匿名类如果未标记为，则形式上依赖于该对象，即使它不依赖于对象中的任何方法或属性。static ...

作者：Anis Smail 提问时间：10/23/2017

此 spark sql 代码编译并运行，但 intelliJ （idea-IU-172.4343.14）显示“Ambigious 方法调用”错误。 public static void main(...

作者：Shekar Tippur 提问时间：8/7/2018

我正在使用 pyspark 将 csv 加载到 redshift。我想查询一下 manny 行是如何添加的。我使用以下函数创建一个新列：withcolumn csvdata=df.withColu...