2010-05-17 3 views
1

Я ищу методы для извлечения различных данных с различных сайтов. Я знаю, что есть программы, которые вы можете купить, но будучи тем, что я пытаюсь научиться, я хочу сделать это сам. Кто-нибудь имеет какие-либо предложения по общей структуре, и если да, то на каком языке вы его напишете. Моя первая мысль была java, но я более чем готов и благодарен услышать чье-либо мнение.Извлечение данных?

ответ

1

Какие данные вы пытаетесь извлечь из веб-сайтов? Какие сайты? и т. д. Было бы полезно узнать немного больше о вашей идее/проекте

Мне недавно нужно было изучить и попробовать несколько синтаксических анализаторов html, чтобы получить нужные мне данные в более консолидированном формате.

Я попробовал JTidy (http://jtidy.sourceforge.net/) и изучил веб-урожай (http://web-harvest.sourceforge.net/). JTidy не будет делать то, что я хотел, и Web-Harvest был излишним.

я в конечном итоге остановились на использовании Java + HTMLparser (http://htmlparser.sourceforge.net/)

Прошло очень мало времени разработки, чтобы получить то, что мне нужно, и HTMLparser позволяет формировать «фильтры», которые поиск конкретных вещей в DOM.

+0

Предположим, что я извлекаю цены с определенного конечного числа сайтов. И пользователь получает информацию о различных точках информации. И затем спросил через эти сайты .. Спасибо за вашу помощь – Eric

0

посмотреть на hadoop (сетки) и solr (сканеры и указатели). Они поддерживают высокую обработку и эффективную индексацию (для эффективного поиска) соответственно.

 Смежные вопросы

  • Нет связанных вопросов^_^