如何训练分类器从语法语言中检测白话?

How to train a classifier to detect vernacular from grammatical language?

提问人:John Sall 提问时间:5/14/2019 最后编辑:John Sall 更新时间:5/14/2019 访问量:59

问:

我正在使用文本分类来对阿拉伯语方言进行分类,到目前为止我有 4 种方言。但是,现在我希望分类器检测这些方言的形式(标准或语法)语言,称为MSA(现代标准阿拉伯语)。

我应该使用语法分析吗?构建语言模型?或者我通过收集 MSA 推文然后训练它们来做与方言相同的事情?

Python 机器学习 NLP 文本分类

评论


答:

1赞 mujjiga 5/14/2019 #1

您可以为语言的每种方言训练语言模型。然后,给定一个句子,找到每个语言模型返回的(对数)概率,并将其分配给返回高分的语言模型。

p* = argmax p_i p_i(sentence)

其中方言的语言模型 I.p_i

语言模型是单词序列的概率分布。给定一个句子,比如长度,它为整个序列分配一个概率。所以句子会属于高的方言,方言的语言模型在哪里。mP(w1, ... ,wm)P_i(w)P_ii

评论

0赞 John Sall 5/14/2019
1)我只有一种正式语言A,然后该语言A有很多方言。我面临的问题是,许多词汇在正式语言 A 和它的方言之间共享。2)这里的语言模型是什么意思?预测句子中下一个单词的模型?3)我也对你的帖子有点困惑,你在这里没有使用方言。
0赞 John Sall 5/14/2019
这就是所谓的计算困惑吗?
0赞 John Sall 5/14/2019
你是说我应该为每种方言训练一个单独的分类器吗?
0赞 John Sall 5/14/2019
你有这方面的参考资料吗?我不清楚你的答案