嵌套用于比较 2 个大型数据帧的循环性能-解网

问：

我有 2 个数据框，请参阅下面的 2 个示例。第一个是大约 3 330 076 行，第二个是 400k。

如果第二个数据帧中的“项目代码”==第一个数据帧中的商品代码，并且数据帧 1 中的 salesdays 条目介于“开始”和“结束日期”条目之间或与“开始日期”和“结束日期”条目相符，则要求相当简单。然后向 dataframe 1 中的 promo count 列添加一个计数。下面是我尝试的嵌套 for 循环，但运行时间超过 2 小时而没有实际完成。任何帮助将不胜感激

for ind , row in SalesDF.iterrows():
    for j ,row2 in SfPromos.iterrows():
        if (row['article'] == row2['Item Code']) and (row2['Start date'] <= row['SalesDays'] <= row2['End date']):
            row['PromoCount'] += 1
print(SalesDF['PromoCount'] > 0)

如果第二个数据帧中的“项目代码”==第一个数据帧中的商品代码，并且数据帧 1 中的 salesdays 条目介于“开始”和“结束日期”条目之间或与“开始日期”和“结束日期”条目相符，则要求相当简单。然后向 dataframe 1 中的 promo count 列添加一个计数。我尝试过，但运行时间超过 2 小时而没有真正完成。

Python 数据帧 for 循环嵌套

import datetime
import pyspark.sql.functions as F

sales = [
    (datetime.date(2022, 7, 4), 10123762, 50, 0),
    (datetime.date(2022, 7, 1), 10123762, 50, 0),
]
promos = [
    (10123762, datetime.date(2022, 7, 3), datetime.date(2022, 7, 5)),
    (10123762, datetime.date(2022, 7, 4), datetime.date(2022, 7, 4)),
]

dfSales = spark.createDataFrame(
    sales, schema=["SalesDay", "article", "TotalSales", "PromoCount"]
)
dfPromos = spark.createDataFrame(promos, schema=["Item Code", "Start date", "End date"])

joinedDf = dfSales.join(
    dfPromos,
    (dfSales["article"] == dfPromos["Item Code"])
    & (
        (dfPromos["Start date"] <= dfSales["SalesDay"])
        & (dfSales["SalesDay"] <= dfPromos["End date"])
    ),
    "left",
)

joinedDfWithMatchFlag = joinedDf.filter(joinedDf["Item Code"].isNotNull()).withColumn(
    "Promo Matched",
    F.when(F.col("Item Code").isNotNull(), F.lit(1)).otherwise(F.lit(0)),
)
statistics = joinedDfWithMatchFlag.groupBy("article", "Item Code").agg(
    F.sum("Promo Matched")
)

statistics.show()

输出：

+--------+---------+------------------+
| article|Item Code|sum(Promo Matched)|
+--------+---------+------------------+
|10123762| 10123762|                 2|
+--------+---------+------------------+

嵌套用于比较 2 个大型数据帧的循环性能

Nested for loop performance in comparing 2 large data frames

评论

评论