2009-09-24 5 views
0

Я ищу создание полнотекстовой поисковой системы для одного из моих проектов. У нас есть Mysql, Tokyo Tyrant и файлы документов, которые необходимо индексировать.Sphinx + tokyo Tyrant + mysql

Я сейчас смотрю на Сфинкса, но я не могу понять, могу ли я использовать его для индексации каждого документа.

Я знаю, что можно использовать Sphinx для использования Mysql, но я ищу способ дать индекс Sphinx и запрос Tokyo Tyrant, а также документы индексного файла.

Это может быть Sphinx или Xapian или другой, но JAVA (Lucene отсутствует), но что-то, что можно использовать с PHP и работать в Linux.

Любая идея поисковой системы, которая может принимать больше, чем Mysql в качестве источника?

Благодаря

+0

lucene может работать на php, Zend сделали реализацию. – RageZ

+0

Насколько я могу судить, Zend_Lucene очень медленно индексируется. – stunti

+0

Да, это, индексирование одного и того же набора данных: Zend_Lucene: 90 секунд, сфинкс: 0,8 секунды - да, его _that_ плохой. – smoove

ответ

3

Вы можете отправить данные из любого источника сфинкса с помощью xmlpipe2

Вы бы просто нужно написать код (возможно, в PHP) для чтения из Токио Тирана (не уверен, что это так вы на ваш собственный), а файловая система и пакет - все это как XML. Затем вы просто настроили свой источник sphinx для запуска команды, которая выполняет ваш собственный код, а sphinx заботится обо всем остальном.

+0

Именно то, что я искал. благодаря – stunti

0

Если вы не слишком много документов, и вы хотите использовать только PHP, вы должны смотреть на Zend_Search_Lucene:

Zend_Search_Lucene общая цель поиска текста движок написанный полностью в PHP 5. Поскольку он хранит свой индекс в файловой системе и не требует , сервер базы данных может добавить возможности поиска практически для любого веб-сайта, управляемого PHP.

Тем не менее, если вы используете свой собственный сервер, вероятно, можно установить программное обеспечение, что означает, что вы можете развернуть Lucence/Solr сфинкса, даже если они написаны не только-PHP - это может быть на самом деле более безопасное решение, если вам нужно индексировать много контента.