Apache-Spark-SQL 问答列表

动态 Spark 结构化流式处理:通过更改处理流-流联接

作者:Baubau Tran 提问时间:11/16/2023

我想使用 Spark 结构化流式处理创建一个简单的应用程序,以便在股价数据满足特定要求时提醒用户(通过电子邮件、短信等)。 我有一个数据流:data_stream 但是,我正在努力解决主要问题:用...

在使用 Spark SQL 的 Databricks 工作簿中,如何通过 SQL UDF 函数传递参数?

作者:Trevor C 提问时间:11/14/2023

以前发布在 Databricks Community: https://community.databricks.com/t5/community-discussions/can-we-pass-pa...

当pyspark数据帧有嵌套列时,如何将NONES转换为空字符串?

作者:Metadata 提问时间:11/10/2023

我有一个带有嵌套列的数据帧,如下所示: df_schema = StructType([ StructField("response", StringType(), True), StructF...

如何根据两个现有列的值在 psyspark 中创建列?

作者:krishna kaushik 提问时间:11/12/2023

我有一个Pyspark数据帧,结构如下。 | orderid | sub | filter-list | | -------- | ---- | -------- | | 1 | 367 | [[...

PySpark GC 问题 - 作业需要 3 个多小时才能完成

作者:amogha_sharma 提问时间:11/8/2023

我正在使用 5 节点 16gb 机器运行只有 1GB 未压缩 csv 文件的 spark 应用程序,面临非常高的 GC 时间,实际计算只需要 15 分钟和 3 小时+ 对于 GC,这可能是解决这个问题...

Spark 在本地模式下用于生产

作者:mhdwrk 提问时间:6/25/2016

在一个平台上工作,其中大多数数据集都是 json 格式,但几乎不支持查询语言来过滤、连接和...... 查看 SparkSQL API 和示例似乎是解决该问题的好办法。考虑到截至目前,我们不需要完整...

SQL split() 中的正则表达式,用于将括在方括号中的逗号分隔字符串转换为数组,并从每个元素中删除周围的引号

作者:archjkeee 提问时间:8/25/2023

我有字符串数据列,其值如下所示: - ["some val1"] - [] - ["some val2", "some_val3"] - single value without brack...

Spark Java sum 给出的值不正确

作者:Shyam 提问时间:8/16/2023

Spark Java sum 给出的值不正确 Java 示例代码如下 List<Double> points = Arrays.asList(-6221.4, 6380.46); Dataset<...

Spark 动态帧显示方法不产生任何结果

作者:PyRaider 提问时间:5/7/2019

因此,我使用 AWS Glue 自动生成的代码从 S3 读取 csv 文件,并通过 JDBC 连接将其写入表。看起来很简单,Job 成功运行,没有错误,但它什么也没写。当我检查 Glue Spark ...

重新分区不适用于 Spark 中的 xml 文件

作者:Nemanja 提问时间:7/15/2023

我有数据帧,我想将其另存为多个xml文件。这是我的代码: employees .repartition(col("first_name")) .write() .option("maxRec...


共28条 当前第2页