如何根据两个现有列的值在 psyspark 中创建列？-解网

问：

我有一个Pyspark数据帧，结构如下。

| orderid  |  sub | filter-list                          | 
| -------- | ---- |          --------                    |
| 1        | 367  | [['123','supply'],['367','price']]   |
| 2        | 389  | [['389','supply'],['906','supply']]  |
| 3        | 804  | [['173','supply'],['804','price']]   |

在此 DataFrame 中，我的目标是从filter_list列中提取值，其中列表的整数值对应于第二列中的子值。

例如，考虑第一行，第二列的值 367 存在于第 3 列中存在的列表的第 2 个位置，因此我想要的所需值是价格。同样，在第二行中，sub 的值出现在第 3 列中列表的第 1 个位置。因此，期望的值是供应。

因此，我想要的最终数据帧是

| orderid  |  sub   | filter-list                             |filter-name| 
| -------- | -----  |     --------                            |   ------  |
| 1        | 367    | [['123','supply'],['367','price']]      |price      |   
| 2        | 389    | [['389','supply'],['906','supply']]     |supply     |   
| 3        | 804    | [['173','supply'],['804','price']]      |price      |

如何通过pyspark功能实现这一点？

我一直在尝试各种方法，但没有成功。任何帮助或指导将不胜感激。谢谢！

python sql pyspark apache-spark-sql

如何根据两个现有列的值在 psyspark 中创建列？

How do I create a column in psyspark based on the values of two existing columns?

评论