提问人:Souni 提问时间:8/24/2023 最后编辑:ekhumoroSouni 更新时间:8/24/2023 访问量:43
大量文件中的UnicodeDecodeError问题
Problem with UnicodeDecodeError in massive file
问:
我正在尝试使用 pandas 读取一个 7GB csv 压缩文件,按块读取。
该文件是 UTF-8-BOM,所以我在read_csv中使用了该编码。 读取 2 小时后,它总是引发以下错误:
UnicodeDecodeError: 'utf-8' codec cant decode byte 0xd0 in position 7478: invalid continuation byte
我尝试了很多不同的编码。它只经过latin_1但开头有一些奇怪的字符,我认为这是文件的 BOM。
当我使用“大文本查看器”打开文件并转到文件末尾时,程序崩溃了。这不会发生在其他海量文件中。我怀疑文件末尾有问题导致此错误,因为它总是在 2 小时后引发。
我还尝试将 csv 转换为 parquet,但它引发了同样的错误。
我在可视化文件时遇到了问题,导致它很大,所以我不知道下一步该怎么做。
答: 暂无答案
评论
rb
rb