Я использую Nutch для сканирования большого веб-сайта.Nutch Как избежать веб-страницы календаря crawl, созданной CGI
Веб-страницы генерируются программой CGI. Большинство URL-адресов веб-страниц содержат такие выражения, как ?id=2323&title=foo
.
Я хочу сканировать эти веб-страницы, поскольку они содержат много полезной информации.
Однако проблема, с которой я сталкиваюсь, заключается в том, что на этом веб-сайте есть календарь. Сгенерированы и некоторые датаподобные веб-страницы. Это означает, что Найт попытается выполнить сканирование некоторых невинных веб-страниц, таких как year=2030&month=12
.
Это довольно глупо.
Как я могу избежать такой ловушки в Nutch? Написание много выражений регулярных выражений?