提问人:jota_ele_a 提问时间:6/15/2023 最后编辑:Horst724jota_ele_a 更新时间:6/17/2023 访问量:83
PySpark:使用 isin 联接来查找一个数据帧中的某个列是否是另一个数据帧的另一列的子字符串
PySpark: join using isin to find if a column in one dataframe is substring of another column of another dataframe
问:
我尝试搜索是否有人问过有关 PySpark 的问题,但我没有成功。
我有一个名称混乱的 DataFrame,称为 df1(如图所示),我准备了一个干净名称的 DataFrame,称为 df2(见图)。如何使用 .join() 和 .isin() 或其他任何东西来获取附加图像中的最后一个表?
这是图像:
我试过了
cond = [df2[Clean_names].isin(df1[Names])]
df1 = df1.join(df2, cond, "left")
但结果是一个错误,说 .join() 需要其他东西作为参数。对不起,我不再有确切的错误日志了。真正的 DataFrame 非常大,所以我不能使用任何迭代操作(即 for 循环,使用 .loc() 处理 panda,根本不处理 panda......
另外,我刚刚在stackoverflow上创建了一个帐户,所以很抱歉我无法更好地格式化我的问题。
答: 暂无答案
评论
expects something else as arguments
,从上面的代码中获取此错误消息看起来有点奇怪。你能试一试,看看两者是否都没有错误吗?如果它成功显示架构,请将其添加到问题中。df1.printSchema()
df2.printSchema()