2016-04-18 6 views
0

Я пытаюсь просмотреть обзор для конкретного обзора фильмов с сайта IMDB. Для этого я использую crawl web, который у меня встроенный внутри цикла, так как есть 74 страницы.Rapid Miner Not Saving Crawl Веб-результаты

Прилагаются изображения конфигурации. Пожалуйста помоги. Я плохо застрял в этом.

URL для обхода контента Web является: http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}

enter image description here

ответ

0

Когда я попробовал это, я получил 403 forbidden ошибки потому что служба IMDB считает, что я робот. Использование Loop с Crawl Web - это плохая практика, потому что оператор Loop не выполняет никаких ожиданий.

Этот процесс можно свести только к оператору Crawl Web. Ключевыми параметрами являются:

  • URL - установить это http://www.imdb.com/title/tt0454876
  • макс страниц - установите значение 79 или любой другой номер, то вам
  • макс размер страницы - Установить на 1000
  • ползет правила - набор они с теми, вы указали
  • выходного каталога - выбрать папку для хранения вещей в

Это работает, потому что оператор ползать будет им rk из всех возможных URL-адресов, соответствующих правилам, и сохранит те, которые также совпадают. Посещения будут отложены на 1000 мс (параметр задержки), чтобы избежать запуска исключения робота на сервере.

Надеюсь, это поможет вам начать.

+0

Я уже инициализировал макрос как значение 0 и добавляю 10 на каждой итерации, чтобы веб-страницы для отзывов были http://www.imdb.com/title/tt0454876/reviews?start=0 http: // www. http://www.imdb.com/title/tt0454876/reviews?start=20 и т. Вот почему я использую 10 приращений в каждом цикле, чтобы получить все обзоры. Могу ли вы, пожалуйста, направить меня, как мне исправить мой заказ выполнения? –

+0

Также я инициализировал макрос в контекстной вкладке как имя макроса 'pagePos' и значение как '0'. Можете ли вы сказать, какой должен быть порядок выполнения внутри цикла ??? Также должно быть правило обхода, поскольку мне нужно получить только обзоры? Я просто начинающий в Rapidminer, поэтому, пожалуйста, помогите мне. –

+0

Текущий процесс дает 403 ошибки. Причиной может быть неправильное использование «Crawl Web» в узком цикле, непосредственно обращаясь к URL. Этот процесс можно упростить, чтобы вообще не использовать оператор Loop. Я обновил свой ответ. – awchisholm

 Смежные вопросы

  • Нет связанных вопросов^_^