提问人:Rishab Jain 提问时间:6/15/2021 更新时间:6/15/2021 访问量:1092
Python 中的 isalpha() 方法是否识别所有非 alpha 字符?
Does the isalpha() method in Python identify all non-alpha characters?
问:
我有一个名为的文件,它由许多用行分隔的句子组成。我试图排除包含非 alpha 字符的行(我只想要那些包含 AZ 字符的行。messages.txt
import re
import string
lines = [line.rstrip() for line in open('messages.txt', encoding='utf-8')]
cleaned_lines = [s.replace("!", "").replace(".", "").replace("?", "").replace(",", "") for s in lines]
output_lines = []
for line in cleaned_lines:
if line.replace(' ', '').isalpha() == True:
output_lines.append(re.sub(r'\W+', '', line.lower()))
chars = sorted(set(('').join(output_lines)))
print(chars)
输出:
['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'ª', 'â', 'ã', 'å', 'ð', 'ÿ', 'œ', 'š', 'ž', 'ƒ', 'ˆ']
可以看出,isalpha() 方法似乎并不排除奇怪的
'â', 'ã', 'å', 'ð', 'ÿ'
字符。我有一种感觉,这可能是由于正在读取文件的编码,但是,我认为 isalpha 方法与模式 RegEx 结合使用应该能够过滤掉这些字符。
这是故意的吗?如果是这样,可以使用哪些方法来删除这些奇怪的字符?
答:
0赞
Tim Biegeleisen
6/15/2021
#1
根据我使用 UTF-8 编码的 Python 脚本进行的本地测试,对于包含带重音的字符的输入返回 false:isalpha()
# -*- coding: utf-8 -*-
inp1 = "Hello"
inp2 = "Hållo"
print(inp1.isalpha()) # True
print(inp2.isalpha()) # False
无论如何,如果您想过滤掉任何包含非 ASCII 字母数字字符的行,那么只需在初始列表推导式中使用:re.search
lines = [line.rstrip() for line in open('messages.txt', encoding='utf-8') if not re.search(r'[^A-Za-z0-9]', line)]
评论
0赞
Rishab Jain
6/15/2021
谢谢。在我的测试中,我发现了一个不同之处。 返回 True。我相信这是因为我检索文件的编码。inp2
utf-8
1赞
Tim Biegeleisen
6/15/2021
您是否声明您的 Python 脚本使用 UTF-8?
0赞
Rishab Jain
6/15/2021
啊,是的,我相信我是。但是,我的文本编辑器可能不支持此语法。因此,我收到了不同的结果。在不同的文本编辑器中测试它时,我得到了与您相同的结果。谢谢。
0赞
Mark Tolonen
6/15/2021
#2
当您读取编码为 UTF-8 的文件时:
lines = [line.rstrip() for line in open('messages.txt', encoding='utf-8')]
中的数据是 Unicode 字符串。根据所使用的操作系统/编辑器,重音字符可以是“组合”(对某些重音字母使用单个代码点)或“分解”(使用两个代码点,一个字母和一个组合重音)。lines
您可以强制使用适合您的表单:
import unicodedata as ud
inp = "Hello",ud.normalize('NFC',"Hållo"),ud.normalize('NFD',"Hållo")
for i in inp:
print(i,ascii(i),i.isalpha(),i.isascii())
输出。请注意,该函数将 accended 显示为单个代码点或代码对:ascii()
a
\xe5
a\u030a
Hello 'Hello' True True
Hållo 'H\xe5llo' True False
Hållo 'Ha\u030allo' False False
若要仅查找 ASCII 字母,请使用 和 进行测试。isalpha()
isascii()
评论
True
utf
isascii()
isascii()
isalpha()