Моя строка:Как я могу извлечь конкретный формат urg src url с помощью regex?
Russia's National Settlement Depository discusses why it believes the biggest blockchain opportunities have yet to be uncovered.<img alt="" height="1" src="http://feeds.feedburner.com/~r/CoinDesk/~4/rvoQUj-KDaw" width="1" />|One of the co-founder of digital currency startup Stellar announced their resignation today.<img alt="" height="1" src="http://feeds.feedburner.com/~r/CoinDesk/~4/xRzN7syt-v0" width="1" />|The editorial board for Bloomberg News has called for a permissive regulatory environment for blockchain development.<img alt="" height="1" src="http://feeds.feedburner.com/~r/CoinDesk/~4/ooQYB2iDxP8" width="1" />|
Я хочу получить эти 3 ссылок в списке:
http://feeds.feedburner.com/~r/CoinDesk/~4/rvoQUj-KDaw
http://feeds.feedburner.com/~r/CoinDesk/~4/xRzN7syt-v0
http://feeds.feedburner.com/~r/CoinDesk/~4/ooQYB2iDxP8
Они подчиняются схеме:
src="http://feeds.feedburner.com/~r/CoinDesk/~4/rvoQUj-KDaw"
Я знаю, что я должен использовать re.findall(pattern, string)
для достижения что.
Но большой вопрос: Как создать шаблон, который работает здесь?
Я не так хорошо писать шаблоны регулярных выражений .. Я всегда запутаться ... тот, который почти получил работу был один:
pattern = 'http[s]?://(?:[a-zA-Z]|[0-9]|[[email protected]&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
Но все, что я получил этот список :
[u'http://feeds.feedburner.com/', u'http://feeds.feedburner.com/', u'http://feeds.feedburner.com/']
похоже, проблема с ~r
части и вещи после этого.
Я использую regex101 , но мне понравился ваш сайт! закладка! thx –