提问人:Joe 提问时间:2/23/2010 更新时间:2/23/2010 访问量:7297
状态缩写的正则表达式 (Python)
regex for state abbreviations (python)
问:
我正在尝试使用 python 创建一个与字符串中的美国州缩写匹配的正则表达式。
缩写可以采用以下格式:
CA
Ca
字符串可以是:
Boulder, CO 80303
Boulder, Co
Boulder CO
...
这是我所拥有的,显然效果不佳。我不太擅长正则表达式,谷歌也没有出现太多。
pat = re.compile("[A-Za-z]{2}")
st = pat.search(str)
stateAbb = st.group(0)
答:
1赞
SilentGhost
2/23/2010
#1
re.search(r'\b[a-z]{2}\b', subject, re.I)
不过,它会找到城镇的双字母名称
评论
0赞
kennytm
2/23/2010
除非有一个以两个字母命名的城市。
10赞
Max Shawabkeh
2/23/2010
#2
一个简单而可靠的方法是列出所有状态:
states = ['IA', 'KS', 'UT', 'VA', 'NC', 'NE', 'SD', 'AL', 'ID', 'FM', 'DE', 'AK', 'CT', 'PR', 'NM', 'MS', 'PW', 'CO', 'NJ', 'FL', 'MN', 'VI', 'NV', 'AZ', 'WI', 'ND', 'PA', 'OK', 'KY', 'RI', 'NH', 'MO', 'ME', 'VT', 'GA', 'GU', 'AS', 'NY', 'CA', 'HI', 'IL', 'TN', 'MA', 'OH', 'MD', 'MI', 'WY', 'WA', 'OR', 'MH', 'SC', 'IN', 'LA', 'MP', 'DC', 'MT', 'AR', 'WV', 'TX']
regex = re.compile(r'\b(' + '|'.join(states) + r')\b', re.IGNORECASE)
如果需要非美国州,请使用其他州列表。
评论
3赞
John Baum
3/12/2014
如果该州恰好是印第安纳州,缩写为 IN,并且正则表达式由于忽略大小写而捕获了带有“in”一词的任何内容,会发生什么?这不会扔掉你正在抓取的任何东西,因为“in”这个词在英语中非常普遍,与印第安纳州无关?我特别想到了几个页面上显示“登录”的情况
评论