Apache-Spark-SQL知识经验-解网

作者：Paul Samsotha 提问时间：11/14/2023

我需要根据上一行的计算值来计算一行的值。我正在寻找一些窗口函数（或其他解决方案），如果有的话，可以帮助我做到这一点。对于上下文，我们有以下数据： CREATE OR REPLACE TABLE ex...

作者：SaadK 提问时间：6/24/2019

我有数以千计的 CSV 文件，这些文件在单个目录下具有相似但不相同的标头。结构如下：路径/到/文件/unique_parent_directory/*.csv 一个 csv 文件可以是： |C...

作者：ByUnal 提问时间：11/16/2023

我有需要在pyspark中编码的T-SQL查询。但是，Pyspark 并不支持所有 SQL 操作，因此您必须相应地构建自己的逻辑。我已经设法转换了许多查询，但我无法确定如何在Pyspark中执行此操作...

作者：amogha_sharma 提问时间：11/8/2023

我正在使用 5 节点 16gb 机器运行只有 1GB 未压缩 csv 文件的 spark 应用程序，面临非常高的 GC 时间，实际计算只需要 15 分钟和 3 小时+ 对于 GC，这可能是解决这个问题...

作者：krishna kaushik 提问时间：11/12/2023

我有一个Pyspark数据帧，结构如下。 | orderid | sub | filter-list | | -------- | ---- | -------- | | 1 | 367 | [[...

作者：Metadata 提问时间：11/10/2023

我有一个带有嵌套列的数据帧，如下所示： df_schema = StructType([ StructField("response", StringType(), True), StructF...

作者：Trevor C 提问时间：11/14/2023

以前发布在 Databricks Community： https://community.databricks.com/t5/community-discussions/can-we-pass-pa...

作者：Baubau Tran 提问时间：11/16/2023

我想使用 Spark 结构化流式处理创建一个简单的应用程序，以便在股价数据满足特定要求时提醒用户（通过电子邮件、短信等）。我有一个数据流：data_stream 但是，我正在努力解决主要问题：用...

作者：Trevor C 提问时间：11/17/2023

我有一个大型工作 SQL 查询，我在 Databricks 工作区中将其参数化并注册为 SQL UDF。大型查询的部分内容在其他地方重复出现，因此，我想将其分成两个 SQL UDF：一个 covera...

作者：wkeithvan 提问时间：11/18/2023

我有一列是任意长度的键/值结构数组： StructType([ StructField("key", StringType(), False), StructType([ StructFiel...