提问人:GIRIXH 提问时间:3/9/2022 最后编辑:GIRIXH 更新时间:3/9/2022 访问量:272
使用 Python 对数据进行分类
Categorization of Data using Python
问:
我有一组关键字要在列中查找,并根据这些关键字对字段进行分类。假设一个单元格的值为“会计师”、“审计员”、“银行”、“出纳员”等,我想添加一个新列类别并将这些字段反映为“财务工作”。
我知道如何在 excel 中做到这一点,但文件大约是 80mbs,而且速度太慢了。我正在考虑使用 Python,但在这方面的经验很少。
我正在考虑使用字典,但不知道寻找什么以及如何寻找,达到相同的结果。
谁能帮我解决这个问题?
编辑:我有 150+ 关键字和大约 30 个类别。
答:
0赞
pquest
3/9/2022
#1
import numpy as np
import pandas as pd
df['new_column'] = np.where(df['keywords'].isin(["Accountant", "auditor", "bank", "cashier"], "Finance Jobs", 'Other Jobs')
评论
0赞
GIRIXH
3/9/2022
对不起,忘了提早。但是我有150+个关键词和大约30个类别,如果一直这样写下去,岂不是很不整洁?
0赞
pquest
3/9/2022
@GIRIXH请编辑您的问题,并清楚地解释数据和您想要的内容
0赞
matszwecja
3/9/2022
是的,这会很不整洁 - 但您需要以某种方式定义您的 150 个关键字:30 个类别映射
0赞
pquest
3/9/2022
@GIRIXH你可以准备一个包含 30 个类别和 150 个关键字的字典,然后在整个字典中使用上面的代码循环
评论