2012-01-27 4 views
0

Я использую Nutch для сканирования большого веб-сайта.Nutch Как избежать веб-страницы календаря crawl, созданной CGI

Веб-страницы генерируются программой CGI. Большинство URL-адресов веб-страниц содержат такие выражения, как ?id=2323&title=foo.

Я хочу сканировать эти веб-страницы, поскольку они содержат много полезной информации.

Однако проблема, с которой я сталкиваюсь, заключается в том, что на этом веб-сайте есть календарь. Сгенерированы и некоторые датаподобные веб-страницы. Это означает, что Найт попытается выполнить сканирование некоторых невинных веб-страниц, таких как year=2030&month=12.

Это довольно глупо.

Как я могу избежать такой ловушки в Nutch? Написание много выражений регулярных выражений?

ответ

0

Добавить шаблоны регулярных выражений в conf/regex-urlfilter.txt в специальные правила для принятия или отклонения URL-адресов.