Я пишу код Python для очистки веб-сайтов, и в итоге я получаю растущую коллекцию пользовательских скребок, каждая из которых составляет около 50 длинные строки и индивидуальные данные, извлекаемые из определенного веб-сайта.Шаблон и дизайн для функций, которые сильно отличаются друг от друга, но обрабатываются аналогично
Моя первая итерация программы - это один гигантский файл, который берет веб-сайт в качестве аргумента и сбрасывает этот веб-сайт, если он его распознает, и имеет собственный код для него (с помощью гигантского заявления о случаях, чтобы проверить, признает ли он веб-сайт) ,
Очевидно, что это не большой дизайн, поэтому я хотел бы сделать собственные функции scrape в своих собственных файлах/классах и иметь небольшой скрипт, который я могу использовать для вызова их по имени. Например:
scrape.py --site google
И я хотел бы иметь файловую структуру, аналогичную:
scrape.py
sites/
google.py
yahoo.py
...
bing.py
Я не освоенной ориентации объекта пока нет, но я признаю, что это взывает к ней, и что то, что я ищу, вероятно, является общим шаблоном OO.
Любая помощь в получении этого кода реорганизована правильно?
PS - Я посмотрел на Scrapy, и это не совсем то, что мне нужно по разным причинам.
PPS - Я на самом деле не очищаю поисковые сайты, я соскабливаю веб-сайты судов США.
В конечном счете, я использовал оба ответа здесь, чтобы создать библиотеку [Juriscraper] (https://bitbucket.org/mlissner/juriscraper/), но заимствован в большей степени от этого. Действительно полезный материал, спасибо! – mlissner