使用 Python 对数据进行分类

Categorization of Data using Python

提问人:GIRIXH 提问时间:3/9/2022 最后编辑:GIRIXH 更新时间:3/9/2022 访问量:272

问:

我有一组关键字要在列中查找,并根据这些关键字对字段进行分类。假设一个单元格的值为“会计师”、“审计员”、“银行”、“出纳员”等,我想添加一个新列类别并将这些字段反映为“财务工作”。enter image description here

我知道如何在 excel 中做到这一点,但文件大约是 80mbs,而且速度太慢了。我正在考虑使用 Python,但在这方面的经验很少。

Sample Data

我正在考虑使用字典,但不知道寻找什么以及如何寻找,达到相同的结果。

谁能帮我解决这个问题?

编辑:我有 150+ 关键字和大约 30 个类别。

Python Excel 分析 数据 操作

评论


答:

0赞 pquest 3/9/2022 #1
import numpy as np
import pandas as pd

df['new_column'] = np.where(df['keywords'].isin(["Accountant", "auditor", "bank", "cashier"], "Finance Jobs", 'Other Jobs')

评论

0赞 GIRIXH 3/9/2022
对不起,忘了提早。但是我有150+个关键词和大约30个类别,如果一直这样写下去,岂不是很不整洁?
0赞 pquest 3/9/2022
@GIRIXH请编辑您的问题,并清楚地解释数据和您想要的内容
0赞 matszwecja 3/9/2022
是的,这会很不整洁 - 但您需要以某种方式定义您的 150 个关键字:30 个类别映射
0赞 pquest 3/9/2022
@GIRIXH你可以准备一个包含 30 个类别和 150 个关键字的字典,然后在整个字典中使用上面的代码循环