在 2 列上获取非重复元素，并在两列之间有 1：1 的记录，按顺序重复数据删除 pyspark-解网

问：

我有一个包含 2 列的 pyspark 数据帧。我需要获取一个数据帧，该列的前几行中没有任何重复元素。如果一个元素是重复的，那么整行都应该被忽略。

输入数据帧：

列 1	专栏 2
一个	1
B	2
一个	3
C	3
C	4
C	4
D	4
E	5
F	4
G	7
D	8
H	9
我	9
H	10
我	10

预期结果数据帧：

列 1	专栏 2
一个	1
B	2
C	3
D	4
E	5
G	7
H	9
我	10

我尝试使用窗口函数来删除重复项。但它并没有给出预期的结果。

SQL Pyspark apache-spark-sql 复制 Databricks

val dF2 = Seq(
("A",1),
("B",2),
("A",3),
("C",3),
("C",4),
("C",4),
("D",4),
("E",5),
("F",4),
("G",7),
("D",8)
).toDF("Column1","Column2")

dF2.createOrReplaceTempView("dF2")

spark.sql(""" 
select column1, column2
from 
(
select column1, column2, 
       row_number() over (partition by column2 order by column1) rn
from
(
select column1, column2, 
       row_number() over (partition by column1 order by column2) rn
  from dF2
) s where rn=1
) s where rn=1

""").show(100, false)

结果：

+-------+-------+
|column1|column2|
+-------+-------+
|A      |1      |
|B      |2      |
|C      |3      |
|D      |4      |
|E      |5      |
|G      |7      |
+-------+-------+

@moulilee 请仔细检查您在 row_number（）计算中使用了正确的分区依据和排序依据。我已经测试了代码并得到了预期的结果。查看更新代码，您可以运行它并检查。它在上层是 Scala 语言，但您可以轻松地转换为 Python。请注意，分区依据和排序依据在第一row_number和第二中是不同的

0赞 mouli lee 11/20/2023

尽管如此，对于我添加的情况，并没有给我预期的结果。

上一个：Pandas - 如果特定列值等于上一条记录 [duplicate] ，则删除记录

下一个：如何在字典中打印重复键的值？

在 2 列上获取非重复元素，并在两列之间有 1：1 的记录，按顺序重复数据删除 pyspark

Get Non repeating elements on 2 column and have 1:1 records between both columns, dedup in sequential order pyspark

评论

评论

评论