“ascii”编解码器无法解码位置 0 的字节0xef:序号不在范围内(128):BookNLP

'ascii' codec can't decode byte 0xef in position 0: ordinal not in range(128) : BookNLP

提问人:Troi 提问时间:6/8/2023 更新时间:6/8/2023 访问量:20

问:

我正在尝试在 Colab 中的 txt 文件上运行 BookNLP 模型,但不断出现错误。

代码:

input_file="alice.txt"
output_directory="alice"
book_id="alice"

booknlp.process(input_file, output_directory, book_id)

错误:

---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-16-7fd43958471a> in <cell line: 6>()
      4 book_id="alice"
      5 
----> 6 booknlp.process(input_file, output_directory, book_id)

2 frames
/usr/lib/python3.10/encodings/ascii.py in decode(self, input, final)
     24 class IncrementalDecoder(codecs.IncrementalDecoder):
     25     def decode(self, input, final=False):
---> 26         return codecs.ascii_decode(input, self.errors)[0]
     27 
     28 class StreamWriter(Codec,codecs.StreamWriter):

UnicodeDecodeError: 'ascii' codec can't decode byte 0xef in position 0: ordinal not in range(128)

查看有关相同错误的其他帖子,我知道我应该将编码设置为 UTF-8,但我有点不确定在这种特殊情况下如何做到这一点。

UTF-8 NLP 字符编码 ASCII 文本处理

评论

0赞 Giacomo Catenazzi 6/8/2023
没有代码,我们也不确定该怎么做。请向编写代码的人核对。

答: 暂无答案