apache-spark 问答列表

是否有 SQL 窗口函数可以使用上一行的计算值?

作者:Paul Samsotha 提问时间:11/14/2023

我需要根据上一行的计算值来计算一行的值。我正在寻找一些窗口函数(或其他解决方案),如果有的话,可以帮助我做到这一点。对于上下文,我们有以下数据: CREATE OR REPLACE TABLE ex...

PySpark:减去两个时间戳列并返回分钟差值(使用 F.datediff 仅返回整天)

作者:PineNuts0 提问时间:1/29/2019

我有以下示例数据帧。date_1 和 date_2 列的数据类型为 timestamp。 ID date_1 date_2 date_diff A 2019-01-09T01:25:00.000Z ...

将 SQL Server JDBC 的 Windows 身份验证与 pyspark 配合使用

作者:Renos Bardhis 提问时间:8/22/2019

我想问一下如何使用 Windows 身份验证将 SQL Server 与 pyspark 库连接?我可以连接 Microsoft SQL Server Management Studio,但当我尝试使...

是否有任何解决方案与 SparkConnectGrpcException 相关?

作者:saravanan kumar 提问时间:10/18/2023

我想在远程连接两台 VM 计算机并使用 spark 资源执行我的 PySpark 程序 VM1:独立 SparkVM1: Standalone Spark VM2:使用 Pyspark 代码的 Ju...

读取目录下的多个 csv 文件时创建单个架构数据帧

作者:SaadK 提问时间:6/24/2019

我有数以千计的 CSV 文件,这些文件在单个目录下具有相似但不相同的标头。结构如下: 路径/到/文件/unique_parent_directory/*.csv 一个 csv 文件可以是: |C...

将 Seq[Column] 附加到现有 Spark 数据帧 Scala

作者:Arvinth kumar 提问时间:7/15/2023

我有 Spark Dataframe 和 Seq[Column] 。我正在尝试将 Seq[Column] 中的列附加到现有 Dataframe。Seq[Column] 将有多个列。df_dataMet...

读取模式不一致的.csv数据

作者:Sumanta 提问时间:8/11/2023

我有一个非常大的CSV文件。我想通过 Pyspark 阅读它,但我无法正确阅读它。 示例 csv 为 "keyvalue","rto","state","maker_model","veh_typ...

具有 Seq 和 case 类的 Scala Spark 列解析器

作者:Mohit Rane 提问时间:8/11/2023

我有一个包含三列的地址数据帧,例如: “addressId”、“customerId”、“address”。 Address.csv中的值如下所示: A100,C100,“100,ABC街,MyCit...

排序合并连接策略仍然具有排序步骤,尽管在 pySpark 中对数据进行预排序

作者:nnqh 提问时间:11/12/2023

data = [(1, "Alice", "A"), (3, "Charlie", "A"), (2, "Bob", "B"), (4, "David", "B")] schema = ["id...

捕获 SQL 流量的 Apache Spark 指标?(字节读取/字节写入)

作者:Riccardo 提问时间:11/16/2023

我正在使用 spark-monitoring 来捕获 Spark 的指标并将其传输到 LogAnalytics。一些默认指标包括 Executor 任务指标,并且是 Executor 任务指标的一部分...


共80条 当前第1页