使用 spaCy 纠正多线程词形还原

Correct multithreaded lemmatization using spaCy

提问人:Tyler D 提问时间:6/25/2019 更新时间:6/26/2019 访问量:1216

问:

我正在尝试使用 spaCy 对我的语料库的词形还原进行多线程处理。按照文档,这是我目前的方法:

import spacy
nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner', 'tagger'])

def lemmatize():
    for doc in nlp.pipe(corpus, batch_size=2, n_threads=10):
        yield ' '.join([token.lemma_ for token in doc])

new_corpus = list(lemmatize())

但是,无论使用 10 个线程还是 1 个线程(我在 100.000 个文档上使用它),这都需要相同的时间,这表明它不是多线程的。

我的实施有错吗?

Python NLP 空间 词形还原

评论

0赞 Murali 11/5/2020
您是否能够为 SpaCy lemmatizer 实现多线程?你对上面的代码做了哪些修改?谢谢。

答:

3赞 aab 6/26/2019 #1

该参数在较新版本的 spacy 中已被弃用,并且不执行任何操作。请参阅此处的注释:https://spacy.io/api/language#pipen_threads

下面是他们使用多处理执行此操作的示例代码:

https://spacy.io/usage/examples#multi-processing