Я имею следующие данные,Regex чтобы разобрать часть URL с помощью питона
data['url']
http://hostname.com/aaa/uploads/2013/11/a-b-c-d.jpg https://www.aaa.com/
http://hostname.com/bbb/uploads/2013/11/e-f-g-h.gif https://www.aaa.com/
http://hostname.com/ccc/uploads/2013/11/e-f-g-h.png http://hostname.com/ccc/uploads/2013/11/a-a-a-a.html
http://hostname.com/ddd/uploads/2013/11/w-e-r-t.ico
http://hostname.com/ddd/uploads/2013/11/r-t-y-u.aspx https://www.aaa.com/
http://hostname.com/bbb/uploads/2013/11/t-r-w-q.jpeg https://www.aaa.com/
Я хочу, чтобы узнать форматы, такие как JPG, GIF, PNG, ICO-, .aspx , .html, .jpeg и проанализируйте его назад, пока не найдет «/». Кроме того, я хочу проверить наличие нескольких событий в строке. Мой вывод должен быть,
data['parsed']
a-b-c-d
e-f-g-h
e-f-g-h a-a-a-a
w-e-r-t
r-t-y-u
t-r-w-q
Я имею в виду, вместо того, чтобы писать отдельные команды для каждого из форматов, есть способ, чтобы написать все под одной командой.
Может ли кто-нибудь помочь мне в письменной форме для инструкций тезисов? Я новичок в регулярном выражении, и любая помощь будет оценена по достоинству.
Возможный дубликат [Python: Получить URL-адреса пути] (http://stackoverflow.com/questions/7894384/python-get-url-path-sections) –
Должно ли это быть сделано с регулярным выражением? 'urlparse' (как указано в возможном дубликате) делает работу великолепно. –
@JIm YEs. У меня есть sevaral условия, подобные этому, и URL-адрес недостаточно структурирован для анализа через urlparse. – haimen