2015-08-16 3 views
3

Я создал искатель, использующий import.io . Первая проблема, с которой я столкнулся, заключалась в том, что import.io не смог идентифицировать данные на веб-странице после нажатия «Обнаружение оптимальных настроек». Он спрашивает: «Это данные, которые вы хотите извлечь из браузера?» Поскольку данные не подсвечиваются, нажмите «Нет». Даже тогда данные все еще не подсвечиваются. То же самое происходит с экстрактором. Я продолжал эту проблему, нажав «да», когда он спросил «это данные, которые вы хотите извлечь из браузера?» хотя данные не были выделены. Я продолжал строить гусеничный ход, и он отлично работает. Я разместил около 15 тыс. URL-адресов в начальном URL-адресе с глубиной страницы 0.получение IOException: преждевременное EOF при запуске import.io

Что происходит, так это то, что из 15 тыс. Страниц около 10% страниц не сканируются. Я проверил файл журнала, и он показывает IOException: Premature EOF против строк, которые не были сканированы.

Если я вручную перейду на эту страницу в браузере, страница загрузится нормально и находится в том же формате, в котором я обучил сканера. Я даже попытался подготовить страницы, которые показали эту ошибку, но это не помогает.

Как я могу обойти эту ошибку?

+1

Привет, эта ошибка связана с наличием нулевого значения в строке. Это может происходить из-за того, что структура данных веб-сайта не идентифицируется. Когда вы используете функцию Обнаружение оптимальной настройки, это нужно сделать, если вам понадобится javascript для получения данных с веб-сайта. Если данные не доступны ни с одной из опций, возможно, веб-сайт нуждается в куках или чем-то более продвинутом. Если бы вы предоставили мне свой GUID, я был бы рад узнать, есть ли какие-либо проблемы, которые я могу решить. –

+0

Я не знаю, где именно я могу получить GUID. Я получил это в адресной строке приложения. id = a80fa302-9ad7-4245-8023-878d893a2e25 – Ahmed

+0

Я бы рекомендовал отправить по электронной почте [email protected] и включить файл журнала. Это будет лучше, поскольку проблема может быть только специфичной для сайта. –

ответ

1

Поскольку я ответил на ваш билет поддержки, подумал, что было бы неплохо разместить эту информацию здесь. Эта ошибка, скорее всего, связана с тем, что веб-сайт обнаружил, что вы используете искатель и блокируете URL-адреса. Я бы предложил повторно запустить сканер с увеличением «паузы между страницами», поскольку вы проходите через столько страниц, чтобы сайт не блокировал вас.

+0

Я проверил это. сайт не блокирует, исправьте меня, если я не ошибаюсь. Я могу открыть ссылку на страницу, которая не удалось выполнить, из моего браузера. если веб-сайт блокировал, он также должен был заблокировать мой браузер. Я не уверен, что это только блокировка приложения import.io – Ahmed

+0

Да, я должен был уточнить, что это будет блокировка импортного приложения. Когда вы проходите сразу столько страниц, сайт, скорее всего, поймал. –

 Смежные вопросы

  • Нет связанных вопросов^_^