从 pandas 数据帧中删除特定单词-解网

问：

示例表：

一个
锐龙CPU，锐龙5 5600X，最佳，AMD 锐龙，销售
中央处理器，Ryzen 9 7800X，可用，Ryzen 电脑，全新

df = pd.DataFrame({'a' : ['ryzen cpu,ryzen 5 5600x,best,amd ryzen,sale',
                         'cpu,ryzen 9 7800x,available,computer for ryzen,new']})

from nltk.corpus import stopwords, wordnet
stop = stopwords.words('english')
b = ['best', 'sale', 'new','available']
c = stop + b
x = []
for i in df['a'].str.split(','):
    for j in i:
        if j not in b:
            x.append(j)
print(x)

我正在尝试删除上述停用词和其他特定词，即使其他词被删除，但停用词没有。

这是我得到的输出：

['ryzen cpu', 'ryzen 5 5600x', 'amd ryzen', 'cpu', 'ryzen 9 7800x', 'computer for ryzen']

此外，我无法以表格格式获取它，我尝试使用以下列表推导式，但它不起作用：

df['a'] = df['a'].apply(lambda x: ''.join([j for i in x.split(' , ') for j in i if j not in c]))
df['a']

它给出的输出似乎完全关闭（一些字母完全消失了，例如“Ryzen”变成了“RZEN”，“Sale”变成了“LE”等）：

一个
RZEN CPU，RZEN 5 5600X，BE，RZEN，LE
CPU，RZEN 9 7800X，VLBLE，CPUER FR RZEN，新增功能

如果有人可以帮助我了解我到底做错了什么，以及如何进一步进行？

预期输出如下所示：

一个
锐龙CPU，锐龙5 5600X，AMD 锐龙
中央处理器，Ryzen 9 7800X，电脑 Ryzen

python pandas 数据帧 nltk 停用词

嗨，玛丽亚，感谢您的回答，我能够删除特定单词，但是停用词：“for”没有被删除，在应用停用词删除之前，我是否必须标记这些单词？我还有另一个查询，所以我能够删除停用词，并在关键字位于多行时对它们执行其他词法分析步骤，例如：['ryzen'，'ryzen 9， 'computer for gamers'， 'available'] 但是在合并行并删除重复行时，我留下了额外的逗号，例如：['ryzen，Ryzen 9，，Ryzen5800X']等有 2 个逗号，我只想有 1 个逗号

0赞 user19077881 6/23/2023 #2

您可以使用：

df['a'] = df['a'].str.replace('|'.join(c), "", regex = True).replace(',,', ',', regex = True)

最后的替换是删除双逗号标记已删除项的位置,,

from nltk.corpus import stopwords

STOPS = set(stopwords.words('english') + ['best', 'sale', 'new','available'])
def remove_stops(words):
    if (words := [word for word in words if word not in STOPS]):
        return words

df['a'] = (df['a'].str.split(',').explode().str.split()
           .map(remove_stops).dropna()
           .str.join(' ').groupby(level=0).agg(','.join))

示例数据帧的结果：

                                   a
0  ryzen cpu,ryzen 5 5600x,amd ryzen
1   cpu,ryzen 9 7800x,computer ryzen

上一个：如何在不获取额外空格和逗号的情况下对列表进行标记（Python）

下一个：“enforce_stop_tokens”如何在LangChain中使用Huggingface模型？

从 pandas 数据帧中删除特定单词

Removing specific words from pandas dataframe

评论

评论

评论