2015-09-11 3 views
0

У меня проблема с парой папок на одном из моих сайтов. Существует одна папка Publications_A и одна - Publications_B. В каждой из этих папок есть несколько подпапок (в основном архивные папки за последние годы), индексная страница и несколько документов, которые отображаются на индексной странице.Проблемы с неправильным сканированием подпапок

выпуск 1: GSA сканирует кучу документов в папке Pub A, которая выдает ошибку «не найден». Это правда, потому что эти документы даже не существуют. Они фактически расположены в одной из подпапок. Даже после сброса индекса они все еще появляются.

выпуск 2: документы, которые отображаются в основной папке, не отображаются в подпапках, где они находятся на самом деле! Я не понимаю. В одной из подпапок (по названию 2014) GSA собирает только 5 документов, хотя на самом деле там 10. Даже если я передаю GSA полный путь к этим недостающим документам, он не индексирует их. Это все документы PDF, и есть ссылки на них внутри файла index.asp в папке 2014. Я проверил, и в любом из них нет тега no-crawl для роботов.

Я часами играю с этим, и не могу понять, что это за жизнь. У кого-нибудь есть идеи?

ответ

0

Я бы использовал диагностику в реальном времени, чтобы попытаться извлечь один из «недостающих» документов и посмотреть, получаете ли вы ответ «200».

Страницы, которые отображаются, что не должно быть связано с «относительными» ссылками в другом контенте. Например, документ PDF может содержать не полностью квалифицированную ссылку URL-адреса внутри него, что может привести к тому, что GSA сканирует ссылку, которая на самом деле не существует.

Убедитесь, что на ваших индексных страницах отображается весь контент, который вы сканируете.

0

Issue1: Если его обходные папки отсутствуют, значит, у вас есть следующий путь, установленный на более высоком уровне, который будет следовать за любыми подпапками.

Исправление: изменить следовать по пути/добавить не следовать по пути Кроме того, как указано Терри Чемберсом ... Если вы правильно указали и не следуете путям, то содержимое вашей страницы будет иметь «ссылку» (в некотором роде) к нежелательному контенту (подпапка, отображаемая для A или B).

Если в папке A есть ссылка, которая берет u в папку B, тогда да, она будет сканировать и индексировать это. Удалить ссылка для избежания нежелательных эффектов.

Надеюсь, это поможет.

0

«Проблема 2: документы, которые отображаются в основной папке, не отображаются в подпапках, где они находятся на самом деле! Я не понимаю. В одной из подпапок (по имени 2014) GSA только собирает 5 документов, даже если на самом деле там 10. Даже если я передаю GSA полный путь к этим недостающим документам, он не индексирует их. Все они являются документами в формате PDF, и есть ссылки на них внутри index.asp в папке 2014. Я проверил, и в любом из них нет тегов без обхода роботов. "

PDF документы могут иметь проблемы ползать/индексации, если содержимое не «выбора в состоянии» или другими словами, изображение «Flat»

Вы также можете попробовать внедренными колонтитулы/заголовки (внутри или HTML) в документации, файлах типа изображения и т. Д. Это должно позволять обходить и индексировать эти документы.

Надеюсь, это поможет.