使用 NLTK 和 Kneser-Ney 平滑计算条件熵二元组

Calculating conditional entropy bigrams using NLTK and Kneser-Ney smoothing

提问人:chasmani 提问时间:9/21/2023 更新时间:9/21/2023 访问量:29

问:

我正在尝试在二元组级别估计文本源的条件熵。为了得到一个好的估计,我需要对二元组的概率进行估计。经过一些阅读,Kneser-Ney 平滑似乎是估计这些概率的最合适方法。

nltk 模块在模块中包括 Kneser-Ney 平滑。但是,这仅适用于卦象。根据这个答案,这不适用于二元组(如何在二元组语言模型的单词级别在 NLTK 中执行 Kneser-Ney 平滑?nltk.KneserNeyProbDist

有人知道怎么做吗?也许使用 .或者,如果我在所有二元组的开头添加一个虚拟令牌并使用该模块,它会起作用吗?我发现整个事情非常令人困惑和不清楚。nltk.lm.KneserNeyInterpolatednltk.KneserNeyProbDist

python nlp nltk

评论


答: 暂无答案