Как я могу извлечь конкретный формат urg src url с помощью regex?

Моя строка:Как я могу извлечь конкретный формат urg src url с помощью regex?

Russia's National Settlement Depository discusses why it believes the biggest blockchain opportunities have yet to be uncovered.<img alt="" height="1" src="http://feeds.feedburner.com/~r/CoinDesk/~4/rvoQUj-KDaw" width="1" />|One of the co-founder of digital currency startup Stellar announced their resignation today.<img alt="" height="1" src="http://feeds.feedburner.com/~r/CoinDesk/~4/xRzN7syt-v0" width="1" />|The editorial board for Bloomberg News has called for a permissive regulatory environment for blockchain development.<img alt="" height="1" src="http://feeds.feedburner.com/~r/CoinDesk/~4/ooQYB2iDxP8" width="1" />|

Я хочу получить эти 3 ссылок в списке:

http://feeds.feedburner.com/~r/CoinDesk/~4/rvoQUj-KDaw 
http://feeds.feedburner.com/~r/CoinDesk/~4/xRzN7syt-v0 
http://feeds.feedburner.com/~r/CoinDesk/~4/ooQYB2iDxP8

Они подчиняются схеме:

src="http://feeds.feedburner.com/~r/CoinDesk/~4/rvoQUj-KDaw"

Я знаю, что я должен использовать re.findall(pattern, string) для достижения что.

Но большой вопрос: Как создать шаблон, который работает здесь?

Я не так хорошо писать шаблоны регулярных выражений .. Я всегда запутаться ... тот, который почти получил работу был один:

pattern = 'http[s]?://(?:[a-zA-Z]|[0-9]|[[email protected]&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'

Но все, что я получил этот список :

[u'http://feeds.feedburner.com/', u'http://feeds.feedburner.com/', u'http://feeds.feedburner.com/']

похоже, проблема с ~r части и вещи после этого.

источник

2016-06-08 dot.Py

Вы пропускаете ~ символ в своем регулярном выражении:

http[s]?://(?:[a-zA-Z]|[0-9]|[[email protected]&+~]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+

кстати: this супер способ проверить регулярное выражение в Python!

источник

2016-06-08 12:46:41 Ward

Я использую regex101 , но мне понравился ваш сайт! закладка! thx –

попробовать этот скрипт:

text1="""Russia's National Settlement Depository discusses why it believes the biggest blockchain opportunities have yet to be uncovered.<img alt="" height="1" src="http://feeds.feedburner.com/~r/CoinDesk/~4/rvoQUj-KDaw" width="1" />|One of the co-founder of digital currency startup Stellar announced their resignation today.<img alt="" height="1" src="http://feeds.feedburner.com/~r/CoinDesk/~4/xRzN7syt-v0" width="1" />|The editorial board for Bloomberg News has called for a permissive regulatory environment for blockchain development.<img alt="" height="1" src="http://feeds.feedburner.com/~r/CoinDesk/~4/ooQYB2iDxP8" width="1" />|""" 
import re 
print re.findall(r'(https?://\S+)', text1)

и результат

['http://feeds.feedburner.com/~r/CoinDesk/~4/rvoQUj-KDaw"', 'http://feeds.feedburner.com/~r/CoinDesk/~4/xRzN7syt-v0"', 'http://feeds.feedburner.com/~r/CoinDesk/~4/ooQYB2iDxP8"']

источник

2016-06-08 12:47:10

ничего себе! это простой способ получить всю эту информацию. похоже, моя голова была слишком сложной! –

попробовать это:

(?:src=)(".*?")

и получить группу \ 1

DEMO

источник

2016-06-08 12:48:24

голосуйте без проблем .. но объясните почему .. так, что я исправлю себя. –

где эти данные поступают? Я бы предложил использовать синтаксический анализатор html вместо того, чтобы пытаться извлечь с помощью регулярного выражения. вы можете вытащить полные значения внутри тегов там, если это исходит от HTML

ниже я положить строку в test.html (для питона, используя BeautifulSoup в качестве примера)

>>> from bs4 import BeautifulSoup 
>>> soup = BeautifulSoup(open(r'A:\test.html')) 
>>> [x['src'] for x in soup.findAll('img')] 
['http://feeds.feedburner.com/~r/CoinDesk/~4/rvoQUj-KDaw', 'http://feeds.feedburner.com/~r/CoinDesk/~4/xRzN7syt-v0', 'http://feeds.feedburner.com/~r/CoinDesk/~4/ooQYB2iDxP8']

источник

2016-06-08 12:48:41 NikT

Хотя это хороший совет, он не пытается ответить на вопрос. –

извините за это ... fixed :) – NikT

Слишком много вещей может пойти не так с регулярным выражением, это будет мой предпочтительный выбор. –

Как я могу извлечь конкретный формат urg src url с помощью regex?

ответ

Смежные вопросы