apache-Spark 问答列表

编码 windows-1251 的 Spark-XML 问题

作者:Владислав Черкасов 提问时间:8/9/2023

我在使用 spark-xml API (pyspark 2.4.0) 解析 pyspark 中的 XML 文档时遇到了问题。我有一个包含带有以下开始标签的 cyryllic 内容的文件: <?xml...

在 spark sql 中转换双精度值

作者:codingprabhu 提问时间:10/12/2023

我有一个要求,我需要使用 Spark SQL 以这种方式将字符串转换为双精度: 12.56 - 12.56 15.40 - 15.40 12 - 12 0 - 0 我们不需要四舍五入,只需要只要...

crossJoin 两个未使用 crossJoin 的 Spark 数据帧

作者:Wael Othmani 提问时间:8/3/2023

假设我有两个 Spark 数据帧: from pyspark.sql import SparkSession # Create a SparkSession spark = SparkSessio...

如何将架构设置为 spark.sql.function.from_csv?

作者:Joseph Hwang 提问时间:7/24/2023

我在 Windows 3.4.1 上使用 spark-3.4.1-hadoop3-hadoop1。我尝试生成要传递到函数参数from_csv架构。 以下是我的代码。 import org.apach...

针对 SQL Server 表的 spark.write 写入错误(通过 JDBC 连接)

作者:Moisés 提问时间:7/26/2023

我们尝试使用以下方法在 SQL Server (V2005) 中保存 DataFrame: df_cards.write.jdbc(url=conn_str, table=tablename, mo...

重新分区不适用于 Spark 中的 xml 文件

作者:Nemanja 提问时间:7/15/2023

我有数据帧,我想将其另存为多个xml文件。这是我的代码: employees .repartition(col("first_name")) .write() .option("maxRec...

根据其名称/正则表达式选择设置列和其他列的列表 (Spark SQL Java)

作者:chingu 提问时间:7/11/2023

我有一个需要选择的列列表。我有此列表中每列的字段名称,因此很容易选择。 public Column[] getSelectColumns() { return new Column[]{ col...

如何获取数据帧中列的索引/位置(Spark sql Java)

作者:chingu 提问时间:7/11/2023

我正在使用 Spark Java(不是 scala、python)。 我必须更改我的代码,以便我的 spark 查询将选择所有列,而不是一组特定的列。(喜欢使用 )。以前,当我有一组特定的列时,我很...

根据该列是否存在于另一个列的值中动态选择该列 (Java Spark SQL)

作者:chingu 提问时间:7/11/2023

我正在使用 Spark SQL Java(不是 scala 或 python)。这是我的数据集的简化示例(它的列比这多得多): 编号 引用 E_id F_id G_id 0 [E_id] 0000 ...

如何从 java spark sql 中的 Row 获取具有正确数据类型的属性值

作者:chingu 提问时间:7/8/2023

我正在使用 Spark Java(不是 scala 或 python)。 我有一个数据帧,我想从行访问特定字段。如果它是 String,我已经能够获得字段值,但我不知道如果它是 Long、Int 该...


共80条 当前第8页