Apache-Spark-SQL 问答列表

根据其名称/正则表达式选择设置列和其他列的列表 (Spark SQL Java)

作者:chingu 提问时间:7/11/2023

我有一个需要选择的列列表。我有此列表中每列的字段名称,因此很容易选择。 public Column[] getSelectColumns() { return new Column[]{ col...

如何获取数据帧中列的索引/位置(Spark sql Java)

作者:chingu 提问时间:7/11/2023

我正在使用 Spark Java(不是 scala、python)。 我必须更改我的代码,以便我的 spark 查询将选择所有列,而不是一组特定的列。(喜欢使用 )。以前,当我有一组特定的列时,我很...

根据该列是否存在于另一个列的值中动态选择该列 (Java Spark SQL)

作者:chingu 提问时间:7/11/2023

我正在使用 Spark SQL Java(不是 scala 或 python)。这是我的数据集的简化示例(它的列比这多得多): 编号 引用 E_id F_id G_id 0 [E_id] 0000 ...

如何从 java spark sql 中的 Row 获取具有正确数据类型的属性值

作者:chingu 提问时间:7/8/2023

我正在使用 Spark Java(不是 scala 或 python)。 我有一个数据帧,我想从行访问特定字段。如果它是 String,我已经能够获得字段值,但我不知道如果它是 Long、Int 该...

是否可以让执行程序评估查询的一部分,而不是在 spark java 中首先主查找整个结果集?

作者:Joe 提问时间:6/22/2023

我在 postgres db 中有 2 个表,我需要将它们加入并将生成的输出发送到 kafka。为此,我编写了一个使用 spark 框架的 java 代码。我的代码示例如下: 主类: privat...

Spark3.2 以 spark2.3.1 格式写入 parquet 文件

作者:Prem S 提问时间:2/2/2023

大家好,由于第三方阅读器,我遇到了新问题。 我已经通过 spark 3.2 编写了 parquet 文件,但 Dremio 20.4 版本无法读取这些 parquet 文件。我想知道我们在 spark...

将 Mongo 集合加载为 Spark 数据集时,如何在架构中指定 BigDecimal 小数位数和精度

作者:Peewee 733 提问时间:8/3/2020

我正在尝试使用 Scala Mongo 连接器将大型 Mongo 集合加载到 Apache Spark 中。 我正在使用以下版本: libraryDependencies += "org.apac...

为什么读取文件时会收到“partition values: [empty row]”日志消息?

作者:zyxue 提问时间:11/29/2017

我正在使用 Spark SQL 读取 csv,我也收到很多这样的消息: ...some.csv, range: 20971520-24311915, partition values: [empty...


共28条 当前第3页