在 Python 中将字节字符串解码为西里尔文

Decode byte string to Cyrillic in Python

提问人:ans 提问时间:10/27/2023 更新时间:10/27/2023 访问量:47

问:

我有一个这样的字节字符串,它应该是西里尔字符:Сравнение

a = b'Сравнение'

将其解码为 UTF-8 无济于事:

a = b'Сравнение'
a.decode("utf-8") # prints same Ср... string

这是哪种编码,如何解码字符串?

我正在将 Google Colab 与 Python 3.10.12 一起使用。

这个在线解码器在应用自动解码后说它必须从 UTF-8 解码为 UTF-8。

python-3.x UTF-8 解码

评论


答:

3赞 Andrej Kesely 10/27/2023 #1

您可以使用 html.unescape

import html

a = b"Сравнение"
decoded_string = html.unescape(a.decode("utf-8"))

print(decoded_string)

指纹:

Сравнение