Apache-Spark-SQL 问答列表

是否有 SQL 窗口函数可以使用上一行的计算值?

作者:Paul Samsotha 提问时间:11/14/2023

我需要根据上一行的计算值来计算一行的值。我正在寻找一些窗口函数(或其他解决方案),如果有的话,可以帮助我做到这一点。对于上下文,我们有以下数据: CREATE OR REPLACE TABLE ex...

读取目录下的多个 csv 文件时创建单个架构数据帧

作者:SaadK 提问时间:6/24/2019

我有数以千计的 CSV 文件,这些文件在单个目录下具有相似但不相同的标头。结构如下: 路径/到/文件/unique_parent_directory/*.csv 一个 csv 文件可以是: |C...

如何执行 T-SQL 操作 UPDATE ...设置。。。在 Pyspark 中?

作者:ByUnal 提问时间:11/16/2023

我有需要在pyspark中编码的T-SQL查询。但是,Pyspark 并不支持所有 SQL 操作,因此您必须相应地构建自己的逻辑。我已经设法转换了许多查询,但我无法确定如何在Pyspark中执行此操作...

PySpark GC 问题 - 作业需要 3 个多小时才能完成

作者:amogha_sharma 提问时间:11/8/2023

我正在使用 5 节点 16gb 机器运行只有 1GB 未压缩 csv 文件的 spark 应用程序,面临非常高的 GC 时间,实际计算只需要 15 分钟和 3 小时+ 对于 GC,这可能是解决这个问题...

如何根据两个现有列的值在 psyspark 中创建列?

作者:krishna kaushik 提问时间:11/12/2023

我有一个Pyspark数据帧,结构如下。 | orderid | sub | filter-list | | -------- | ---- | -------- | | 1 | 367 | [[...

当pyspark数据帧有嵌套列时,如何将NONES转换为空字符串?

作者:Metadata 提问时间:11/10/2023

我有一个带有嵌套列的数据帧,如下所示: df_schema = StructType([ StructField("response", StringType(), True), StructF...

在使用 Spark SQL 的 Databricks 工作簿中,如何通过 SQL UDF 函数传递参数?

作者:Trevor C 提问时间:11/14/2023

以前发布在 Databricks Community: https://community.databricks.com/t5/community-discussions/can-we-pass-pa...

动态 Spark 结构化流式处理:通过更改处理流-流联接

作者:Baubau Tran 提问时间:11/16/2023

我想使用 Spark 结构化流式处理创建一个简单的应用程序,以便在股价数据满足特定要求时提醒用户(通过电子邮件、短信等)。 我有一个数据流:data_stream 但是,我正在努力解决主要问题:用...

Databricks SQL 错误 (UNSUPPORTED_SUBQUERY_EXPRESSION_CATEGORY。ACCESSING_OUTER_QUERY_COLUMN_IS_NOT_ALLOWED) 使用 SQL UDF 的

作者:Trevor C 提问时间:11/17/2023

我有一个大型工作 SQL 查询,我在 Databricks 工作区中将其参数化并注册为 SQL UDF。大型查询的部分内容在其他地方重复出现,因此,我想将其分成两个 SQL UDF:一个 covera...

Pyspark 将键/值结构数组转换为单个结构体

作者:wkeithvan 提问时间:11/18/2023

我有一列是任意长度的键/值结构数组: StructType([ StructField("key", StringType(), False), StructType([ StructFiel...


共28条 当前第1页