Я соскабливаю веб-сайт (отвечаю за скриптизацию, регулируя мои выскабливания и с разрешения), и я собираюсь собирать статистику о 300 000 пользователей.Когда вы очищаете много статистики с веб-страницы, как часто я должен вставлять собранные результаты в свою БД?
Я планирую хранить эти данные в базе данных SQL, и я планирую соскабливать эти данные один раз в неделю. Мой вопрос заключается в том, как часто я должен делать вставки в базе данных, поскольку результаты поступают из скребка?
Лучше всего подождать до тех пор, пока все результаты не будут (сохраняя их все в памяти), и вставьте их все, когда скребок будет закончен? Или лучше делать вставку на каждый результат, который приходит (приходя с приличной скоростью)? Или что-то среднее?
Если кто-то может указать мне в правильном направлении, как часто/когда я должен это делать, я был бы признателен.
Кроме того, будет ли изменен ответ, если я сохраню эти результаты в плоском файле или базе данных?
Благодарим вас за внимание!
Как вы можете скринировать, чтобы собирать статистику пользователей? Разумеется, скрипинг экрана означает, что вы попали на веб-сайт, а не кто-то другой. Вы говорите об анализе файлов журнала? –
Я собираю статистику, посещая страницы профиля нишевого игрового сайта. Я получил разрешение, поскольку я планирую создать ранжирование лестницы на основе определенных аспектов данных пользователей каждую неделю. – Mithrax