PySpark:减去两个时间戳列并返回分钟差值(使用 F.datediff 仅返回整天)
作者:PineNuts0 提问时间:1/29/2019
我有以下示例数据帧。date_1 和 date_2 列的数据类型为 timestamp。 ID date_1 date_2 date_diff A 2019-01-09T01:25:00.000Z ...
pyspark 问答列表
作者:PineNuts0 提问时间:1/29/2019
我有以下示例数据帧。date_1 和 date_2 列的数据类型为 timestamp。 ID date_1 date_2 date_diff A 2019-01-09T01:25:00.000Z ...
作者:PineNuts0 提问时间:2/13/2019
我想筛选特定日期之前的所有日期的数据集。具体来说,在当前日期前 1 天。 我尝试了下面的代码: df = df.filter(F.col('date') <= F.current_date() -...
作者:mohamadmaarouf_ 提问时间:9/11/2023
我已经在 Azure 中运行管道 4 个月了,昨晚它突然坏了。我有以下代码: !pip install tabula-py from tabula.io import read_pdf import...
作者:Renos Bardhis 提问时间:8/22/2019
我想问一下如何使用 Windows 身份验证将 SQL Server 与 pyspark 库连接?我可以连接 Microsoft SQL Server Management Studio,但当我尝试使...
作者:Vaiva Petrikaite 提问时间:5/31/2023
我正在pyspark中解析JSON文件。该文件具有“许多分支”。我放了一个我感兴趣的分支的图。 我得到两个数据帧: df1=df.select(F.expr("inline_outer(featur...
作者:BC Smith 提问时间:9/12/2020
当我使用 min、sum、max、count、mean 或 std 之一时,pyspark groupby().agg() 工作正常。但是如果我 提供median_udf、range_udf或quan...
作者:PineNuts0 提问时间:6/5/2018
我在 Pyspark 中有一个数据帧,其中包含一个名为“report_date”的日期列。 我想创建一个名为“report_date_10”的新列,该列将添加到原始report_date列的 10 ...
作者:PineNuts0 提问时间:7/28/2018
我有以下数据框: +---+---+------+ | id| ts|days_r| +---+---+------+ |123| T| 32| |342| I| 3| |349| L| 10| +...
作者:jota_ele_a 提问时间:6/15/2023
我尝试搜索是否有人问过有关 PySpark 的问题,但我没有成功。 我有一个名称混乱的 DataFrame,称为 df1(如图所示),我准备了一个干净名称的 DataFrame,称为 df2(见图)...
作者:Sumanta 提问时间:8/11/2023
我有一个非常大的CSV文件。我想通过 Pyspark 阅读它,但我无法正确阅读它。 示例 csv 为 "keyvalue","rto","state","maker_model","veh_typ...