2016-08-17 5 views
-2

Доброго дня дорогих сообществ,Извлечение информации с помощью XPaths

я, наконец, составил список рабочих XPaths требуется, чтобы очистить всю информацию из URL, что мне нужно.

Я хотел бы попросить ваше предложение для новичка в кодировании, что лучше всего очистить вокруг ссылок 50k, используя только XPaths (около 100 xpaths для каждой ссылки)?

Import.io - мой лучший инструмент на данный момент или даже инструменты SEO для Excel, но у них обоих есть свои ограничения. Импорт io стоит дорого, инструменты SEO для Excel не подходят для извлечения более 1000 ссылок.

Я желаю изучить предложенную систему, но, пожалуйста, предложите хороший способ соскабливания моего проекта!

РЕШЕННЫЙ! Инструмент SEO Tools на самом деле очень полезен, и я считаю, что нашел то, что мне нужно. Думаю, я удержу Python или Java, пока не столкнутся с другим жестким препятствием. Спасибо всем!

+0

Возможный дубликат [Как использовать Xpath в Python?] (Http://stackoverflow.com/questions/8692/how-to-use-xpath-in-python) – n1c9

ответ

1

Это сильно зависит от того, что вы подразумеваете под «соскабливанием информации». Что именно вы хотите использовать на своих сайтах? Все основные языки (например, Java и Python, о которых вы упомянули) имеют хорошие решения для подключения к веб-сайтам, чтения контента, анализа HTML с использованием DOM и использования XPath для извлечения определенных фрагментов. Например, Java имеет JTidy, что позволяет анализировать даже «грязный» HTML с сайтов в DOM и немного манипулировать им. Однако необходимые инструменты будут зависеть от точных потребностей в обработке данных вашего проекта.

+0

спасибо за ваш ввод, я решил с помощью инструментов SEO для excel, я просто собираюсь использовать их сканер, который отлично работает для того, что мне нужно. – Tomas

1

Я бы посоветовал вам использовать Python (я использую 2.7.x) w/Selenium. Я регулярно автоматизирую очистку и тестирование веб-сайтов с помощью этой комбо (как голосовой, так и безгласной), а Selenium открывает возможность взаимодействовать со сценарием сайтов, на которых нет явных webcalls для каждой страницы.

Вот хороший, быстрый учебник от Селена документов: 2. Getting Started

Есть много хороших источники там, и это будет длиться вечно, чтобы разместить их всех; но вы найдете сообщество Python очень полезным, и вы, вероятно, увидите, что Python - отличный язык для такого типа взаимодействия с веб-сайтом.

Удачи вам!

+0

Спасибо за ваш вклад, python и java оба кажутся отличными .. очень сложно решить, на какой из них учиться. На данный момент я нашел решение с помощью поискового робота. – Tomas