2010-05-10 3 views
6

Im работает Solr 1.4 на Ubuntu 10.04 (установлен через apt-get solr-tomcat), и он работает нормально. Мне трудно найти любую согласованную информацию о том, как индексировать документы. Im новый для SOLR, так что несите меня! У меня есть папка (/ mnt/folder), которая представляет собой установленный общий ресурс Windows, который содержит файлы Word и PDF, которые я хотел бы проиндексировать, самый простой способ заставить SOLR индексировать всю папку?Как индексировать документы в SOLR?

Документация для SOLR довольно бедна, ее невозможно найти в любом приличном учебнике о том, как все это делается, поэтому любая помощь очень ценится!

S

ответ

7

Посмотрите на Solr wiki, это довольно тщательное документирование.

В частности, см. ExtractingRequestHandler, который позволяет индексировать двоичные файлы, такие как документы Word и PDF. Here's an introduction.

Если вашей вики недостаточно, то есть great book about Solr.

+1

Lucid ссылка не работает. Однако видео можно найти на youtube. http://www.youtube.com/watch?v=ifgFjAeTOws&list=PLsj1Ri57ZE94lISrJuy7W8COc2RNFC1Fl&index=14 – Avec

+0

Только ссылка на книгу работает – orezvani

1

Я нашел те же самые проблемы с документацией ядра, но я наткнулся на это очень полезный справочнике от LucidImagination, который помог прояснить много вещей о ГУМЗЕ:

http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide

+0

К сожалению, эта ссылка больше не работает. –

+0

Я думаю, что это заменит выше: http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide – paranza

0

Обработка богатых документов с Solr: http://wiki.apache.org/solr/UpdateRichDocuments

+2

О, только что узнал, что этот метод был заменен ExtractingRequestHandler, как предположил Маурицио. (цитата из solr wiki: _ Эта страница охватывает RichDocumentHandler, созданный Эриком Пью и Крисом Харрисом. Интеграция Tika Solr, которая заменит RichDocumentHandler, описана в ExtractingRequestHandler. Эта страница сохраняется здесь для тех пользователей, которые в настоящее время используют RichDocumentHandler_) – High6

 Смежные вопросы

  • Нет связанных вопросов^_^