apache-Spark 问答列表

为什么读取文件时会收到“partition values: [empty row]”日志消息?

作者:zyxue 提问时间:11/29/2017

我正在使用 Spark SQL 读取 csv,我也收到很多这样的消息: ...some.csv, range: 20971520-24311915, partition values: [empty...

Spark 警告“TID 未释放块锁”导致性能不佳

作者:Achilles 提问时间:3/2/2017

我正在学习火花。我正在尝试演示一个简单的聚类算法。假设我在我的 rdd 上找到了 k 个项目,这些项目代表我的一个集群。问题是当我尝试将它们带到驱动程序时,我收到一条警告,说“tid 未释放块锁”。这...

Spark - 将包含特殊字符的字符串加载到 Spark 数据帧中

作者:punky 提问时间:8/7/2023

我在这里有以下情况 - 我正在使用 urllib.request 库从 API 获取结果: response = compatible_urllib.urlopen(request).read() ...

Spark 的数组/映射字段的“爆炸”如何是 SELECT 操作?

作者:user2153235 提问时间:10/3/2023

我是 Python a Spark 的新手,目前正在解决这个问题 有关 Spark 对 DataFrame 的数组/映射字段的操作的教程。explode 基于第一部分 1(PySpark 分解数组或...

Spark 在本地模式下用于生产

作者:mhdwrk 提问时间:6/25/2016

在一个平台上工作,其中大多数数据集都是 json 格式,但几乎不支持查询语言来过滤、连接和...... 查看 SparkSQL API 和示例似乎是解决该问题的好办法。考虑到截至目前,我们不需要完整...

有没有办法访问增量表旧列名?

作者:Roland R. 提问时间:9/7/2023

我有一个表格,上面有客户 ID、creditcard_number和creditcard_type(美国运通卡、万事达卡等) 我正在努力找到一种方法: 使用增量湖函数将列名 creditcard_t...

SQL split() 中的正则表达式,用于将括在方括号中的逗号分隔字符串转换为数组,并从每个元素中删除周围的引号

作者:archjkeee 提问时间:8/25/2023

我有字符串数据列,其值如下所示: - ["some val1"] - [] - ["some val2", "some_val3"] - single value without brack...

从包中导入手动声明的嵌套架构会导致 NullPointerException

作者:user371816 提问时间:8/22/2023

我正在尝试使用 Databricks 的 spark-xml 将 XML 文件解析为 DataFrames,并带有以下代码: val xmlDF = spark .read .option("r...

Spark Java sum 给出的值不正确

作者:Shyam 提问时间:8/16/2023

Spark Java sum 给出的值不正确 Java 示例代码如下 List<Double> points = Arrays.asList(-6221.4, 6380.46); Dataset<...

Spark 动态帧显示方法不产生任何结果

作者:PyRaider 提问时间:5/7/2019

因此,我使用 AWS Glue 自动生成的代码从 S3 读取 csv 文件,并通过 JDBC 连接将其写入表。看起来很简单,Job 成功运行,没有错误,但它什么也没写。当我检查 Glue Spark ...


共80条 当前第7页