Я люблю Ruby и его рамки, но я не думаю, что Ruby On Rails - лучший выбор для разработки Feed-parser и Indexer.Хороший язык для паука и индексатора
Возможно, Python или Java - лучшие варианты. Какой язык вы предлагаете?
Я люблю Ruby и его рамки, но я не думаю, что Ruby On Rails - лучший выбор для разработки Feed-parser и Indexer.Хороший язык для паука и индексатора
Возможно, Python или Java - лучшие варианты. Какой язык вы предлагаете?
Я думаю, что Руби просто отлично для любого из этих видов задач:
Если вы знакомы с Ruby, я не вижу причин выложить на Java, Python et al. для большинства задач. Имейте в виду, что многие библиотеки Ruby размещаются в собственных реализациях.
Корма (RSS?) Обычно довольно хорошо структурированы (по крайней мере, по сравнению с обычной веб-страницей). Проверьте Web Harvest, парсер DOM на основе Java/bean-оболочки (между прочим). Вы можете использовать это для автоматизации захвата данных из Интернета. Существует определенный для домена язык (определенный в XML), который вам нужно будет изучить. Кривая обучения может быть немного крутой, но я чувствовал, что это стоит того.
Я не очень хорошо знаком с Java, но могу сказать, что Python очень хорошо подходит для работы.
Этот очень быстрый XML-парсерный модуль под названием BeautifulStoneSoup, который вы можете использовать. Это часть библиотеки BeautifulSoup. И если вы ищете простой индексатор, Python имеет встроенный движок sqlite, который также легкий и очень быстрый.