使用dask.dataframe.read_csv时出现 Unicode 错误

unicode error when using dask.dataframe.read_csv

提问人:pc404 提问时间:9/19/2023 更新时间:9/20/2023 访问量:46

问:

我在使用时遇到 he 错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0xac in position 0: invalid start byte 2023-09-19 13:04:11,361 - distributed.core - ERROR - Exception while handling op register-client

import dask.dataframe as dd
fstringval=3
ddf=dd.read_csv(f"C:\\myfile\\witth\\fstring\\data{fstringval}.txt",  encoding="utf8", sep="|", header=None, dtype=dtypes, assume_missing=True, encoding_errors='ignore')
ddf.compute()

我尝试更改编码,但是当我在记事本中打开文件时,它说编码是 UTF-8,所以我没想到会有任何改进,实际上我没有得到任何改进。我还尝试了不同的编码错误参数,都会导致相同的问题。

python unicode utf-8 dask 读取.csv

评论

0赞 mdurant 9/20/2023
试着至少单独阅读 pandas 的前几行,看看是哪一组参数让它起作用。

答:

1赞 pc404 9/20/2023 #1

我在 github 上找到了这个答案,就像使用 1.0.3 版本将 msgpack-python 更新到 1.0.5 版本一样简单

conda install -c conda-forge msgpack-python==1.0.5

我不明白为什么会发生这种情况,但是,它解决了问题;有关更具体的答案,请参阅链接的问题。