两个字符串之间的相关性

Correlation between two strings

提问人:user1762132 提问时间:12/20/2018 最后编辑:Adam Bethkeuser1762132 更新时间:12/20/2018 访问量:741

问:

我正在尝试查找数据集中的两列之间是否存在关系。我正在使用 fuzzywuzzy 和 partial_ratio 来识别关键字列和“问题标题”列之间是否存在“匹配”。

关键字列充满了带有空格分隔符的文章的元数据标签。我的代码工作正常,但我想知道是否有更好的方法来做我正在尝试做的事情?

法典:

import pandas as pd
import numpy as np
from fuzzywuzzy import fuzz   

df.dropna(subset=['Keywords', 'Issue'], inplace=True)
df['Acc'] = df.apply(lambda rows: fuzz.partial_ratio(rows['Keywords'],rows['Issue']),axis = 1)
df[['Issue','Keywords','Len','Acc']].head(1)

这将返回以下数据帧:

| Issue | Keywords                                                                                            | Len | Acc |
|-------|-----------------------------------------------------------------------------------------------------|-----|-----|
| 0     | General information regarding proof of employm... Verification Employment calls Work Number VOE ... | 19  | 57  |

因此,Len 列中有 19 个关键字,匹配分数中有 57 个关键字。很酷,那么,有没有其他方法可以确定是否使用了正确的“标签”并且是否与“问题”列 100% 相关?

python-3.x 匹配 相关性

评论

0赞 Vivek Kumar 12/20/2018
也许您在匹配之前过滤掉了停用词。我假设内部不这样做,并且也根据这些词来评分,这可能没有必要。fuzzywuzzy
0赞 user1762132 12/21/2018
@Vivek库马尔,我也在考虑这样做,我的朋友,很好的建议。谢谢。从两列中筛选出停用词,然后检查匹配项。现在,我一开始没有这样做的唯一原因是因为我需要创建一个“质量报告”来显示现有标签/关键字的质量。我想知道我是否创建了一个报告,说“这是您有多少个停用词”,如果您删除它们,这就是质量的样子?...嗯......

答: 暂无答案