Мы пытаемся реализовать Straw Crawler для обхода данных. Нам удалось найти подзаголовки с URL-адреса, но мы хотим получить содержимое из этих подъязыков. Мне не удалось найти много ресурсов, которые помогут мне получить его? Любые полезные ссылки/веб-сайты в этом отношении были бы полезными. Благодарю.Сканирование с использованием Storm Crawler
0
A
ответ
2
Getting Started, presentations and talks, а также различные blog posts должны быть полезны.
Если подписи выделены и проанализированы - что вы можете проверить в журналах, то контент будет доступен для индексирования или хранения, например, WARC. Существует dummy indexer, который выгружает содержимое на консоль, которое может быть принято в качестве отправной точки, а также есть ресурсы для индексации документов в Elasticsearch или SOLR. WARC module также может использоваться для хранения содержимого страниц.
Привет Julien, как сразу я добавил предоставленный фрагмент кода на странице модуля Warc в мой файл CrawlTopology.java но когда я бегу МВН чистый пакет, я получаю следующее сообщение об ошибке: не удается найти символ символ: класс FileNameFormat location: class crawler.CrawlTopology Наряду со многими другими подобными линиями. Должен ли я добавить некоторую зависимость к pom.xml –
Привет. Вы должны добавить модуль Warc к зависимостям \t \t \t \t \t com.digitalpebble.stormcrawler \t \t \t ливневых гусеничном ВАКР \t \t \t $ {ливневых crawler.version} \t \t Возможно, это упростит f или теперь и использовать указатель фиктивного кода, он уже находится в основном модуле и не требует дополнительных зависимостей. Кроме того, используйте код, сгенерированный архетипом, в качестве отправной точки, это избавит вас от множества проблем. –