提问人:user1762132 提问时间:12/20/2018 最后编辑:Adam Bethkeuser1762132 更新时间:12/20/2018 访问量:741
两个字符串之间的相关性
Correlation between two strings
问:
我正在尝试查找数据集中的两列之间是否存在关系。我正在使用 fuzzywuzzy 和 partial_ratio 来识别关键字列和“问题标题”列之间是否存在“匹配”。
关键字列充满了带有空格分隔符的文章的元数据标签。我的代码工作正常,但我想知道是否有更好的方法来做我正在尝试做的事情?
法典:
import pandas as pd
import numpy as np
from fuzzywuzzy import fuzz
df.dropna(subset=['Keywords', 'Issue'], inplace=True)
df['Acc'] = df.apply(lambda rows: fuzz.partial_ratio(rows['Keywords'],rows['Issue']),axis = 1)
df[['Issue','Keywords','Len','Acc']].head(1)
这将返回以下数据帧:
| Issue | Keywords | Len | Acc |
|-------|-----------------------------------------------------------------------------------------------------|-----|-----|
| 0 | General information regarding proof of employm... Verification Employment calls Work Number VOE ... | 19 | 57 |
因此,Len 列中有 19 个关键字,匹配分数中有 57 个关键字。很酷,那么,有没有其他方法可以确定是否使用了正确的“标签”并且是否与“问题”列 100% 相关?
答: 暂无答案
评论
fuzzywuzzy