Python进阶编程:编写更高效、优雅的Python代码
上QQ阅读APP看书,第一时间看更新

2.3.4 最短匹配

用正则表达式匹配某个文本模式是字符串匹配中最为常用的方式。一般,正则表达式找到的是最长的可能匹配,但有时需要的结果是最短的可能匹配。

这个问题一般出现在需要匹配一对分隔符之间的文本的时候(比如引号包含的字符串),相关代码(shortest_match_exp.py)示例如下:


import re
str_pat = re.compile(r'"(.*)"')
text_val = 'Show "no." on screen'
print(str_pat.findall(text_val))

text_v = 'Computer show "no." Phone show "yes."'
print(str_pat.findall(text_v))

执行py文件,输出结果如下:


['no.']
['no." Phone show "yes.']

在示例中,模式r'\"(.*)\"'的意图是匹配双引号包含的文本。但是在正则表达式中,*操作符是贪婪的,匹配操作会查找最长的可能匹配。所以,在第二个print语句中搜索text_v的时候返回结果并不和期望的一样。

要修正这个问题,可以在模式中的*操作符后面加上?修饰符,示例如下:


str_pat = re.compile(r'"(.*?)"')
print(str_pat.findall(text_v))

在上述更改后,匹配变成非贪婪模式,从而得到最短的可能匹配,这也是期望的结果。

这里展示了在写包含点(.)字符的正则表达式的时候遇到的一些常见问题。在一个模式字符串中,点(.)字符可以匹配除了换行符外的任何字符,但如果将点(.)字符放在开始与结束符(比如:引号)之间,匹配操作会查找符合模式的最长的可能匹配,这样通常会导致忽视很多中间被开始与结束符包含的文本,最终被包含在匹配结果中返回。

通过在“*”或者“+”这样的操作符后面添加一个“?”,可以强制匹配算法改成寻找最短的可能匹配。