apache-spark知识经验-解网

作者：Paul Samsotha 提问时间：11/14/2023

我需要根据上一行的计算值来计算一行的值。我正在寻找一些窗口函数（或其他解决方案），如果有的话，可以帮助我做到这一点。对于上下文，我们有以下数据： CREATE OR REPLACE TABLE ex...

作者：PineNuts0 提问时间：1/29/2019

我有以下示例数据帧。date_1 和 date_2 列的数据类型为 timestamp。 ID date_1 date_2 date_diff A 2019-01-09T01:25:00.000Z ...

作者：Renos Bardhis 提问时间：8/22/2019

我想问一下如何使用 Windows 身份验证将 SQL Server 与 pyspark 库连接？我可以连接 Microsoft SQL Server Management Studio，但当我尝试使...

作者：saravanan kumar 提问时间：10/18/2023

我想在远程连接两台 VM 计算机并使用 spark 资源执行我的 PySpark 程序 VM1：独立 SparkVM1： Standalone Spark VM2：使用 Pyspark 代码的 Ju...

作者：SaadK 提问时间：6/24/2019

我有数以千计的 CSV 文件，这些文件在单个目录下具有相似但不相同的标头。结构如下：路径/到/文件/unique_parent_directory/*.csv 一个 csv 文件可以是： |C...

作者：Arvinth kumar 提问时间：7/15/2023

我有 Spark Dataframe 和 Seq[Column] 。我正在尝试将 Seq[Column] 中的列附加到现有 Dataframe。Seq[Column] 将有多个列。df_dataMet...

作者：Sumanta 提问时间：8/11/2023

我有一个非常大的CSV文件。我想通过 Pyspark 阅读它，但我无法正确阅读它。示例 csv 为 "keyvalue","rto","state","maker_model","veh_typ...

作者：Mohit Rane 提问时间：8/11/2023

我有一个包含三列的地址数据帧，例如： “addressId”、“customerId”、“address”。 Address.csv中的值如下所示： A100，C100，“100，ABC街，MyCit...

作者：nnqh 提问时间：11/12/2023

data = [(1, "Alice", "A"), (3, "Charlie", "A"), (2, "Bob", "B"), (4, "David", "B")] schema = ["id...

作者：Riccardo 提问时间：11/16/2023

我正在使用 spark-monitoring 来捕获 Spark 的指标并将其传输到 LogAnalytics。一些默认指标包括 Executor 任务指标，并且是 Executor 任务指标的一部分...