2016-02-18 2 views
0

Я просматриваю страницу с неполными URL-адресами, и мне нужно их преобразовать для заполнения HTTP-url, например, исходный адрес: http://www.example.com/dir1/dir1/, а индексный файл содержит следующие ссылки :Преобразование частичного URL-адреса из разобранной страницы для завершения URL-адреса

/page.htm 
page.htm 
../page.htm 
../../page.htm 

Мне нужно преобразовать их в

http://www.example.com/page.htm 
http://www.example.com/dir1/dir2/page.htm 
http://www.example.com/dir/page.htm 
http://www.example.com/page.htm 

Я не уверен, как распознать ../ и оценить их от исходного адреса и urlparse(temp_href).geturl() не работает.

Как их правильно преобразовать?

ответ

2

urljoin должен сделать трюк для вас.

from urlparse import urljoin 

base = "http://www.example.com/dir1/dir1/" 
print urljoin(base, "/page.htm") 
print urljoin(base, "page.htm") 
print urljoin(base, "../page.htm") 
print urljoin(base, '../../page.htm') 

 Смежные вопросы

  • Нет связанных вопросов^_^