2009-08-22 4 views

ответ

1

Я думаю, что Руби просто отлично для любого из этих видов задач:

Если вы знакомы с Ruby, я не вижу причин выложить на Java, Python et al. для большинства задач. Имейте в виду, что многие библиотеки Ruby размещаются в собственных реализациях.

1

Корма (RSS?) Обычно довольно хорошо структурированы (по крайней мере, по сравнению с обычной веб-страницей). Проверьте Web Harvest, парсер DOM на основе Java/bean-оболочки (между прочим). Вы можете использовать это для автоматизации захвата данных из Интернета. Существует определенный для домена язык (определенный в XML), который вам нужно будет изучить. Кривая обучения может быть немного крутой, но я чувствовал, что это стоит того.

0

Я не очень хорошо знаком с Java, но могу сказать, что Python очень хорошо подходит для работы.

Этот очень быстрый XML-парсерный модуль под названием BeautifulStoneSoup, который вы можете использовать. Это часть библиотеки BeautifulSoup. И если вы ищете простой индексатор, Python имеет встроенный движок sqlite, который также легкий и очень быстрый.