如何通过错误分析获得文本分类的见解?

How to gain insights in text classifications with error analysis?

提问人:John Sall 提问时间:5/18/2019 最后编辑:John Sall 更新时间:5/18/2019 访问量:854

问:

我正在做方言的文本分类。我正在使用带有 countVectorizer 的朴素贝叶斯分类器。我有很多错误分类的文本。有没有一种方法可以分析这些错误,以找出分类出错的地方?例如,如果我能知道哪些单词被用来将文本错误地分类为 A,而它应该被归类为 B,然后我可以从 A 的语料库中取出这些单词。

是否应该使用聚类切换到无监督学习?还是神经网络和深度学习?如果朴素贝叶斯分类器不起作用。

另外,我怎么知道countVectorizer是如何对文档进行分类的?以及他用哪些词对文档进行分类。

Python 机器学习 NLP 文本分类 countvectorizer

评论

1赞 vb_rises 5/18/2019
分析错误取决于许多因素。您需要检查您正在执行哪种文本清理,要删除哪些停用词,是否需要词干提取或词形还原等。这不是那么简单。您还可以使用 tfidf 矢量化器。您可以创建错误分类的记录列表,并检查错误分类的最常见单词。
0赞 John Sall 5/18/2019
如何检查错误分类的最常见单词?
0赞 vb_rises 5/18/2019
将所有错误分类的评论附加为字符串,然后使用包链接Counter
0赞 Akhil Batra 5/18/2019
尝试 shap

答: 暂无答案