提问人:Uwe.Schneider 提问时间:4/4/2023 最后编辑:markalexUwe.Schneider 更新时间:4/5/2023 访问量:50
Python:尽可能将 utf-8 字符翻译成拉丁字母
Python: Translate utf-8 characters as good as possible to latin letters
问:
我有一个包含许多 utf-8 字符的文本,例如 和 。š
œ
Ó
关于如何将 utf-8 转换为 ascii,这个平台上有很多问题,重点是字节编码。
我想知道是否有一种方法可以在 python 中使用,将所有这些字符替换为
正则表达式模式范围内最相似的类似物 ( 或 ),即所有拉丁(希腊语)字母、数字和标点符号。[a-zA-Z0-9.,:?!@$€]
[α-ωΑ-Ωa-zA-Z0-9.,:?!@$€]
这将产生 , , .但š -> s
œ -> oe
Ó -> O
† -> <nothing>
如果找不到密切关系,例如符号或笑脸,则应将其删除。
我知道,哪些字符可以相互识别是主观的,但也许有一个近似的解决方案。
答: 暂无答案
评论
unicodedata.normalize
†
+