2009-04-07 8 views
12

Я хочу ползать по определенным вещам. В частности, события, которые происходят, например, концерты, фильмы, открытия художественной галереи и т. Д. И т. Д. Все, на что можно потратить время.Сканирование Интернет

Как реализовать сканер?

Я слышал о Grub (grub.org -> Викия) и Heritix (http://crawler.archive.org/)

Существуют ли другие?

Какие мнения имеют у всех?

Джейсон

ответ

3

Я думаю, что часть веб-браузера будет самой легкой частью задачи. Жесткая часть будет решать, какие сайты посетить и как обнаружить события на сайтах, которые вы хотите посетить. Возможно, вы хотите узнать об использовании Google или Yahoo API, чтобы получить нужные данные. Они уже выполнили работу по полному просмотру большого количества страниц в Интернете - вы можете сосредоточиться на моем, во всяком случае, гораздо более сложной проблеме просеивания данных для получения событий, которые вы ищете.

0

Есть ли конкретные требования к знанию языка?,

я провел некоторое время, играя с Чилкэт Паук Lib для .net некоторое время назад для личного экспериментирования,

Последний я проверил там паук Libs, лицензированы как бесплатное программное обеспечение, (Altho не с открытым исходным кодом, насколько я знаю :()

Кажется, у них есть питон библитеками к.

http://www.example-code.com/python/pythonspider.asp #Python http://www.example-code.com/csharp/spider.asp # .Net

1

Если вы обнаружите, что обход Интернета станет рассветной задачей, вы можете подумать о создании RSS aggregator и подписке на RSS-каналы для популярных сайтов событий, таких как craigslist и comingcoming.org.

Каждый из этих сайтов предоставляет локализованные, доступные для поиска события. RSS предоставляет вам (несколько) стандартизованных форматов вместо того, чтобы иметь все искаженные html, которые составляют сеть ...

Существуют библиотеки с открытым исходным кодом, такие как ROME (java), которые могут помочь в использовании RSS-каналов.

0

Следующее на Kevin's предложение RSS-каналов, вы можете зарегистрироваться Yahoo pipes. Я еще не пробовал их, но я думаю, что они позволяют обрабатывать несколько RSS-каналов и создавать веб-страницы или больше RSS-каналов.

+1

Никогда не используйте Трубы для чего-то большого. Он не очень надежный и довольно медленный. – mixdev

10

Отличный вводный текст для этой темы: Introduction to Information Retrieval (полный текст доступен онлайн). В нем есть глава о Web crawling, но, возможно, что более важно, она обеспечивает основу для вещей, которые вы хотите делать с обходными документами.

Introduction to Information Retrieval http://nlp.stanford.edu/IR-book/iir.jpg

+2

Фантастическая книга. –

4

Заканчивать Scrapy. Это веб-обходная среда с открытым исходным кодом, написанная на Python (я слышал, что она похожа на Django, но вместо того, чтобы обслуживать страницы, она загружает их). Он легко расширяется, распределяется/параллельно и выглядит очень многообещающим.

Я бы использовал Scrapy, потому что таким образом я мог бы сэкономить свои силы для чего-то более простого, например, как извлечь правильные данные из скребкового контента и т. Д. И вставить в базу данных.

2

На самом деле написание масштаба направлен искателя довольно сложная задача. Я реализовал его на работе и поддерживал его довольно долгое время. Есть много проблем, которые вы не знаете, пока не напишите и не столкнетесь с проблемами. В частности, речь идет о CDN и дружественном обходе сайтов. Адаптивные алгоритмы очень важны или вы отключите фильтры DOS. На самом деле вы будете так или иначе не зная об этом, если ваш ползание будет достаточно большим.

вещи думать о:

  • Что кроме умелым пропускной способности?
  • Как вы справляетесь с отключением сайта?
  • Что произойдет, если вы заблокированы?
  • Вы хотите заниматься скрытным сканированием (противоречивым и на самом деле довольно сложно получить право)?

Я на самом деле написал кое-что, что, если я когда-нибудь обойдусь, я мог бы разместить онлайн о строительстве гусеничного тракта, так как создание правильного гораздо сложнее, чем люди скажут вам. Большинство сканеров с открытым исходным кодом работают достаточно хорошо для большинства людей, поэтому, если вы можете рекомендовать использовать один из них. Какой из них - выбор функции/платформы.

 Смежные вопросы

  • Нет связанных вопросов^_^