提问人:Omar Ibrahim 提问时间:5/23/2023 最后编辑:JosefZOmar Ibrahim 更新时间:5/23/2023 访问量:63
使用 Python 在 CSV 中过滤阿拉伯语文本时遇到问题 - 输出中的非阿拉伯语符号
Trouble filtering Arabic text in CSV using Python - non-Arabic symbols in output
问:
我正在尝试使用 Python 尝试过滤包含某些单词/字符的宗教阿拉伯语文本(古兰经)中的经文。该程序运行良好,并在检查某些字符时输出带有过滤诗句的 CSV 文件,但在检查其他字符时,它会输出奇怪的非阿拉伯符号。例如,当检查具有 unicode 0x0644的阿拉伯字母“Lam”时,输出的 csv 是完美的,如下所示,但是当使用具有 unicode 0x0643的阿拉伯字母“Kaf”时,我会得到一堆符号,例如 سÙÙˆØ±ÙŽØ Ù Ø§Ù“ÙÙŽØ§ØªÙØÙŽØ©©Ù。提前感谢您的帮助。 我的代码:
import csv
mylist = []
with open("Arabic-Original.csv", "r", encoding="utf-8") as file:
csvreader = csv.reader(file)
for row in csvreader:
mylist.append(row)
s = f'{chr(0x0644)}'
f = open("copiedverses.csv", "w", encoding="utf-8")
for i in range(len(mylist)):
if s in mylist[i][0]:
f.write(mylist[i][0] +"\n")
f.close()type here
使用Unicode值为“lam”,我得到如下内容: 在此处输入图像描述
0x0644
使用Unicode值为“kaf”,我得到这个: 在此处输入图像描述
0x0643
该代码适用于某些字母,但不适用于其他字母,我尝试了多个彼此相似的字母,但我仍然无法找出为什么对于某些字母它输出阿拉伯语而对于其他字母则不输出。 谢谢。
答: 暂无答案
评论
utf-8-sig
utf-8