2009-09-17 3 views
2

Я использую VSTS 2008 + C# + .Net 3.5. Я хочу найти инструмент (открытый исходный код), который сканирует все веб-страницы для веб-сайта и для любых других доменных страниц, которые связаны этим веб-сайтом, я хочу пропустить их обход (мне нужна только страница для этого конкретного домена только). Для обхода веб-страницы я хочу сохранить их в локальном каталоге файлов.. Пример веб-искателя на основе сети

Любые образцы или готовые к использованию инструменты с открытым исходным кодом?

ответ

4

Arachnode.net Возможно, вы ищете то, что ищете.

+0

Хороший материал, есть веб интерфейс, так что мы можем сделать запрос к результатам анализа полнотекстовых? – George2

+0

Привет, Стив, насколько хорош Arachnode.net для неанглийского языка? Любой опыт индексирования/поиска не-языка, как Франция, японский? Любой плагин, необходимый для такого языка? (Я думаю, что извлечение ключевых слов, индексирование и синтаксический анализ могут отличаться для разных языков?) – George2

+0

Спасибо за вашу помощь, Стив! Я ответил как ваш ответ. – George2

3

Я являюсь автором AN.

AN индексирует все языки по умолчанию. Нечего настраивать.

  • Майк
+0

http://arachnode.net/ –

+0

Для изучения ваших результатов есть веб-интерфейс и служебный интерфейс. Было действительно неутешительно, что страница Wiki удалена для AN. Страница присутствовала почти год, пока кто-то не заметил ее. Хотя AN имеет тысячи пользователей, многие пользователи используют AN для коммерческих целей. Поскольку AN является базой для многих предприятий, наши пользователи несколько не решаются разоблачить, как они получают свои данные. Конечно, такая связь - это то, что Википедия стремится рассмотреть нечто «заметное». И, я подозреваю, что бар для новизны несколько выше для коммерческих приложений. –

+0

Кроме того, личный выбор модераторами Википедии также влияет на включение статьи, как и другие искатели в категории Web_Crawler (http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers), такие как http: //en.wikipedia .org/wiki/Aspseek являются «заметными», как AN. ::Майк –