Python nltk.util ngram 错误的输出格式

Python nltk.util ngram wrong output format

提问人:angeliquelinde 提问时间:6/9/2021 更新时间:6/9/2021 访问量:15

问:

我是 Python 的新手,正在做我的第一个课程作业练习。尝试将一些文本转换为卦标记,但我没有得到预期的输出:

    from nltk.util import ngrams

    def process_text(text, n = 1):
           tokens = [token for token in text.split(" ") if token != ""]
           tokenised = list(ngrams(tokens, n))
           return tokenised

    process_text("knife pot spoon hammer nail", 3)

输出:

              [('knife', 'pot', 'spoon'),
              ('pot', 'spoon', 'hammer'),
              ('spoon', 'hammer', 'nail')]

输出应如下所示:

             ['knife pot spoon',
              'pot spoon hammer',
              'spoon hammer nail]

评论

0赞 Tim Roberts 6/9/2021
通常,当您使用单词列表时,您确实希望将单词分离成一个列表,就像您拥有的那样。您可以通过自己组合它们来获得结果:.tokenised = list(' '.join(k) for k in ngrams(tokens, n)))
0赞 angeliquelinde 6/9/2021
非常感谢。这样就可以了。但我接受你的观点,这不是人们通常会使用的。

答: 暂无答案