Извлечения данных из страничных вложенных ссылок

У меня есть постраничный список IMDb названий около 17 страниц: the list Извлечения данных из страничных вложенных ссылок

Ссылки имеет URL-адрес в виде http://www.imdb.com/title/tt0111161/?ref_=adv_li_tt

Где tt0111161 является название ID.

Я хотел бы просмотреть весь список, и для каждого заголовка перейдите по адресу http://www.imdb.com/title/tt0111161/ratings
и извлеките информацию HTML с этой страницы. Как я могу это сделать с помощью Scrapy, BeautifulSoup или любого другого метода?

источник

2017-02-08 Mohamed Oun

Что вы хотите добавить в «http://www.imdb.com/title/tt0111161/ratings»? –

@ PiyushS.Wanare Распределение голосов. –

Что вы пробовали? Есть ли у вас код для совместного использования с проблемами, которые вы видите во время его запуска? –

Я попробовал так: -

from bs4 import BeautifulSoup 
import urllib 
r = urllib.urlopen('http://www.imdb.com/title/tt0111161/ratings').read() 
soup = BeautifulSoup(r) 
print soup

Примечание - IMDb не позволит отказаться от их веб-сайт.

источник

2017-02-08 13:26:42

Хорошо, что можно скачать страницу рейтинга, спасибо. Но мне нужен способ получить страницу рейтингов для каждого заголовка в списке. Как это сделать? –

Проверьте, есть ли у IMdb какой-либо API, кроме того, у них есть безопасность, мы не можем отказаться от этого. –

Я проверил, у них нет API, все, что у них есть, - это дамп текстовых файлов, которые беспорядочны и трудны для синтаксического анализа, поэтому это единственный путь. Что вы подразумеваете под словом «у них есть безопасность»? –

Извлечения данных из страничных вложенных ссылок

ответ

Смежные вопросы