Я работаю с клиентом, чтобы перенести веб-сайт с существующего производственного оборудования в новую аппаратную среду. Сейчас кажется отличным временем для проведения аудита и удаления любого старого или устаревшего контента, а не просто слепо скопировать его снова.Инструменты для очистки содержимого веб-сайта?
Есть ли хорошие бесплатные инструменты или скрипты, которые я могу использовать для сравнения веб-доступного контента на сервере с фактическими файлами на сервере, чтобы узнать, какой контент на самом деле связан и используется?
Заранее благодарим за любую помощь!
Сайт очень большой, где-то в диапазоне 2-3 000 страниц, а также ссылки на изображения и файлы. Это не практично делать это вручную. Я мог написать сценарий для разбора каждой страницы, извлечения ссылок и проверки их до завершения, записи каждой найденной страницы. Затем сравните с файловой системой, но это займет много времени. Я не первый человек, который должен сделать это, поэтому я думаю, что должен быть какой-то бесплатный инструмент с открытым исходным кодом, который мог бы помочь, я просто не знаю об этом. –