提问人:John Sall 提问时间:5/14/2019 最后编辑:John Sall 更新时间:5/14/2019 访问量:59
如何训练分类器从语法语言中检测白话?
How to train a classifier to detect vernacular from grammatical language?
问:
我正在使用文本分类来对阿拉伯语方言进行分类,到目前为止我有 4 种方言。但是,现在我希望分类器检测这些方言的形式(标准或语法)语言,称为MSA(现代标准阿拉伯语)。
我应该使用语法分析吗?构建语言模型?或者我通过收集 MSA 推文然后训练它们来做与方言相同的事情?
答:
1赞
mujjiga
5/14/2019
#1
您可以为语言的每种方言训练语言模型。然后,给定一个句子,找到每个语言模型返回的(对数)概率,并将其分配给返回高分的语言模型。
p* = argmax p_i p_i(sentence)
其中方言的语言模型 I.p_i
语言模型是单词序列的概率分布。给定一个句子,比如长度,它为整个序列分配一个概率。所以句子会属于高的方言,方言的语言模型在哪里。m
P(w1, ... ,wm)
P_i(w)
P_i
i
评论
0赞
John Sall
5/14/2019
1)我只有一种正式语言A,然后该语言A有很多方言。我面临的问题是,许多词汇在正式语言 A 和它的方言之间共享。2)这里的语言模型是什么意思?预测句子中下一个单词的模型?3)我也对你的帖子有点困惑,你在这里没有使用方言。
0赞
John Sall
5/14/2019
这就是所谓的计算困惑吗?
0赞
John Sall
5/14/2019
你是说我应该为每种方言训练一个单独的分类器吗?
0赞
John Sall
5/14/2019
你有这方面的参考资料吗?我不清楚你的答案
上一个:如何避免C库中的函数名称冲突?
评论