Ограничение жадности в регулярках в Python
Регулярные выражения по умолчанию жадные. Это значит, что они захватывают максимальное возможное количество символов. Давайте разберем на примере. Пусть у нас есть вот такая строка:
txt = 'aeeex zzz x kkk'
В этой строке хотим найти подстроку
'aeeex'
по следующему шаблону: буква
'a'
, затем любой символ один или более
раз, затем буква 'x'
:
res = re.sub('a.+x', '!', txt)
print(res)
Хотя нам нужно получить строку '! zzz x kkk'
,
выведется строка '! kkk'
.
Все дело в том, что наша регулярка ищет все
символы от буквы 'a'
до буквы 'x'
.
Но в нашей строке две буквы 'x'
! Из-за
жадности получается, что регулярка ищет до
самого последнего икса, тем самым захватывая
не то, что нам было нужно.
Конечно, зачастую такое поведение нам и требуется. Но конкретно в этом случае нужно отменить жадность и сказать регулярке, чтобы она искала до первого икса. В этом случае следует после оператора повторения поставить знак вопроса:
res = re.sub('a.+?x', '!', txt)
print(res) # выведет строку '! zzz x kkk'
Жадность можно ограничивать всем операторам
повторения: и *
, и ?
, и {}
- вот так: *?
, ??
и {}?
.
Дана строка:
txt = 'aba accca azzza wwwwa'
Напишите регулярку, которая найдет все строки
по краям которых стоят буквы 'a'
,
и заменит каждую из них на '!'
. Между
буквами 'a'
может быть любой символ (кроме
'a'
).