2015-06-18 1 views
2

Итак, я довольно долго извлекаю много данных с помощью приложения desktop.index.io; но то, что всегда подслушивало меня, - это когда вы пытаетесь вывести несколько URL-адресов, они всегда пропускают половину из них.Предотвращение пропуски URL-адреса при сборе в массе с import.io

Это не проблема URL, если вы берете то же самое, скажем, 15 URL-адресов, которые будут возвращаться, например, в первый раз 8, второй раз 7, в третий раз 9; некоторые ссылки будут извлечены в первый раз, но будут пропущены второй раз и так далее.

Мне интересно, есть ли способ заставить его обрабатывать все URL-адреса, которые я им кормлю?

ответ

1

Я столкнулся с этой проблемой несколько раз, когда я извлекаю данные. Как правило, это связано с тем, что URL-адреса Bulk Extract запрашиваются с серверов сайта.

Обходным путем является использование гусеничного устройства, такого как экстрактор. Вы можете вставить URL-адреса, которые вы создали/собрали, в разделы «Где начать», «Где сканировать» и «Где получить данные из раздела» (вам нужно нажать кнопку дополнительных настроек в сканере).

Обязательно включите 0 глубину сканирования. (Это превращает искателя в экстрактор, т. Е. Никакого обнаружения дополнительных URL-адресов)

Увеличение паузы между страницами.

Вот скриншот того, что я построил когда-то назад. http://i.gyazo.com/92de3b7c7fbca2bc4830c27aefd7cba4.png

+0

Тем временем я тоже разрешил его с помощью Crawler, точно так же, как вы объяснили. – Dino