根据另一个数据集（DF2）中的变量在 DF1 中保留（过滤）观测值-解网

问：

我有一个大型数据集（df1），每个用户有多个观测值（600 万行），我只想查看来自某些用户的观测值。选定的用户列表来自另一个数据集（df2）（4000 个用户）。 DF1 包含 DF2 的所有内容。下面是简化的示例：

df1:
   date_stata  hour user  
0  20mar2023     9  a              
1  20mar2023     9  a              
2  20mar2023     9  a              
3  20mar2023     9  b             
4  20mar2023     9  b
5  20mar2023    12  c

df2:
   date_stata  hour user  
0    a              
1    c

我应该如何在 Python os Stata 中做到这一点？

我希望我的输出如下所示：

  date_stata  hour user  
0  20mar2023     9  a              
1  20mar2023     9  a              
2  20mar2023     9  a                           
3  20mar2023    12  c

我试过这个：

# Filter the DataFrame based on matching values in the "user" column
filtered_df = df.merge(df2[['user']], on='user', how='inner')

并给了我错误的结果

Python 联接合并过滤

根据另一个数据集（DF2）中的变量在 DF1 中保留（过滤）观测值

keeping (filtering) observations in df1 based on a variable from another dataset (df2)

评论

评论

根据另一个数据集 （DF2） 中的变量在 DF1 中保留（过滤）观测值

keeping (filtering) observations in df1 based on a variable from another dataset (df2)

评论

评论

根据另一个数据集（DF2）中的变量在 DF1 中保留（过滤）观测值