Apache Spark 问答列表

当生成器嵌套在表达式中时,不支持生成器

作者:pradipta basu 提问时间:5/2/2018

在进行字数统计之前,我必须简单地从字符串中删除“.”。它在两个语句中工作正常,但在编写单个语句时给了我以下错误。我是在做傻事吗?还是有改进的余地? 错误:org.apache.spark.sql.A...

rdd 与 dataframe Spark 上的序列化

作者:thebluephantom 提问时间:3/9/2019

EX1 中。这和 RDD 给出了我们预期的序列化,无论有没有 Object,val num 都是罪魁祸首,很好: object Example { val r = 1 to 1000000 toL...

Apache Spark Null 值(强制转换不兼容的 DecimalType 与 ClassCastException)

作者:alexanoid 提问时间:4/15/2019

铸造 ) 例如 到 5,4) 在 Apache Spark 中以静默方式返回DecimalType(10,599999.99999DecimalType(null 在这种情况下,是否可以更改此行为并...

IDE 中本地模式下的 Spark 闭包行为

作者:Sheel Pancholi 提问时间:2/26/2021

我在我的机器上观察到 3 节点集群 (Spark 2.4.5) 在本地模式下的 spark 和闭包的奇怪行为。 以下是一段代码 object Example { val num=5 def m...

Spark 映射闭包内部没有自由变量

作者:merukii6912 提问时间:6/17/2021

我正在尝试在 RDD 上使用 map -> combineByKey -> map 进行转换。 我有这个驱动程序方法,它初始化了sparkSession: def main(args: Array...

Spark 项目在本地正常运行,但当我提交集群时,它报告了 null 指针异常

作者:yulu ye 提问时间:4/15/2023

我在目标文件的函数 (def) 之外设置了多个全局变量并将它们初始化为 null,然后在其中一个函数中分配和更新它们,并在另一个函数中调用这些全局变量,这使我得到变量始终为 null。我猜这可能是一个...

使用 iso-8859-1 文件读取 CSV 和文本文件的 Spark 的不同行为

作者:Heitor Barbieri 提问时间:11/7/2023

问题:我在使用文本文件进行编码转换时遇到了问题,当我使用 csv 文件时不会发生这个问题。 操作系统:Ubuntu的 23.10 Scala:2.13.12 火花:3.5.0 法典: pac...

跳过 Python Spark Pyspark Databricks 未知字段异常中的错误记录

作者:TadeG 提问时间:11/9/2023

我想知道是否有人可能知道如何跳过我们从 json 文件获取的记录 这是错误 [UNKNOWN_FIELD_EXCEPTION。NEW_FIELDS_IN_RECORD_WITH_FILE_PATH...

按顺序从数组列中获取非重复行 pyspark

作者:mouli lee 提问时间:11/16/2023

我有一个包含 2 列的 pyspark 数据帧。Column1 是整数列,Column2 是 ArrayType。我需要获取一个数据帧,该 Column2 的前几行中没有任何重复元素。在 Column...

如何在 Databricks 中设置苏打水群集的总内存大小

作者:omoshiroiii 提问时间:11/17/2023

我正在使用 Sparkling Water 3.40.0.4 在 Databricks 中工作;我有一个 512 GB 的总驱动程序内存和 6 个工作人员,每个工人 64 GB。当我打电话时 hc ...


共11条 当前第1页