Сам сервер-разработчик, вероятно, не является отличным инструментом для скремблирования; он однопоточный и (по крайней мере, для python, реализация Java может быть сильно различаться), хранилище данных довольно ужасно, если хранить большие объемы данных.
Однако, в зависимости от того, что вы очищаете, производственные серверы могут быть не совсем подходящими для задачи; если сайтам может потребоваться более 10 секунд для ответа на запрос, API-интерфейс urlfetch истечет. Если вы можете быть уверены, что это не будет проблемой, возможно, удобнее делать скребок в производстве и писать непосредственно в хранилище данных.
Если нет, возможно, имеет смысл делать скребки с помощью автономного инструмента, а затем помещать данные в производственный хранилище либо с помощью веб-службы RESTful, либо с помощью удаленного API.
EDIT: Теперь производственные серверы могут установить 10 минут ожидания на urlfetches инициированных из TaskQueue или хрон рабочих мест, так что эти возражения могут не применять больше.
+1 сервер-разработчик - это игрушка. – systempuntoout