2009-06-28 3 views
2

Я хотел бы создать список URL-адресов для домена, но я бы предпочел сохранить пропускную способность, не сканировав сам домен. Итак, есть ли способ использовать существующие обходные данные?Как получить список URL-адресов для домена

Одним из решений, которое я думал, было бы сделать Yahoo site search, что позволяет загружать первые 1000 результатов в формате TSV. Однако, чтобы получить все записи, мне пришлось бы очистить результаты поиска. Google также поддерживает поиск по сайту, но не предлагает простой способ загрузить данные.

Можете ли вы подумать о лучшем способе работы с большинством (если не всех) веб-сайтов?

спасибо, Richard

ответ

0

Кажется нет маточного способа веба ползать, так что я просто придерживаться моего нынешнего подхода ...

Также я нашел большинство поисковых систем только открыть первые 1000 результатов в любом случае.

1

Некоторые веб-мастера предлагают Sitemaps, которые являются по существу списки XML каждого URL в домене. Однако нет общего решения, за исключением сканирования. Если вы используете сканер, пожалуйста, подчиняйтесь robots.txt.

+1

К сожалению, большинство сайтов, на которые я смотрел, не используют их. Я надеюсь использовать результаты другого искателя вместо того, чтобы снова сканировать. – hoju

+0

Я должен не согласиться с тем, что существует хотя бы одно общее решение, которое я объяснил, используя результаты сканирования из поисковой системы. Это делается с использованием сайта: foo.org. – hoju

+0

Ричард, поисковые системы не индексируют каждый домен, и их списки не содержат каждую страницу в доменах, которые они индексируют. Вот почему сайт: foo.org не является общим решением. –

3

Вы можете загрузить список до 500 адресов бесплатных через этот интерактивный инструмент:

XML Sitemap Generator

... Просто выберите «список текста» после того, как инструмент сканирует ваш сайт.