2016-10-28 5 views
3

Я использую коллективный Solr 4.1.0. Поиск на нашей системе Plone 4.2.6.Solr не индексирует файлы blob

Моя проблема сейчас в следующем. На нашем Plone Server мы используем ZODB для создания файлов blob. Когда я сейчас пытаюсь создать индекс в Solr, я получаю ошибку INFO UniCMSData MISSING BLOB FILE: /opt/plone/data/blobstorage/0x31/0x37/0x32/0x36/0x39/0xa2/0xce/0x3e/0x03b3d7af6465c4cc.blob.

Путь выглядит правильно для меня, и я знаю, что unter opt/plone/data/blobstorage хранятся все файлы blob. Это заставляет меня задаться вопросом: не нашел ли Solr его или просто что-то ужасное в моей конфигурации Solr? Или Solr не обрабатывает капли ZODB правильно?

признательно для каждой небольшой помощи :)

ответ

3

Это снова я :-)

Нет ничего плохого в конфигурации Yout Solr.

Solr отправляет по pache tika по умолчанию, который может конвертировать почти все в текст/plain.

Но вам нужно как минимум collective.solr 5.0.1, потому что с этой версией можно извлечь текст с возможностью поиска непосредственно из blob с помощью collective.solr BinaryIndexer.

Если вы не можете обновить Plone сайт/collective.solr вы можете установить ftw.tika ->https://pypi.python.org/pypi/ftw.tika/2.7.0

ftw.tika регистрирует Plone portal_transforms, который использует TIKA для преобразования многих типов в обычный/текст. Вы также можете использовать tika как услугу.

ftw.tika является Plone 4.2 совместимым.

+0

Спасибо, что присоединился ко мне здесь :) Я проверю, сделает ли apache tika это для меня. Неужели это бесполезно для этой задачи с версией 'collect.solr' менее 5.0.1? –

+1

Перед сборником.solr 5.0.1 были проблемы с индексированием blobs напрямую ... например, solr попытался индексировать файл, прежде чем он был фактически записан на диск. – Mathias

+0

Теперь я модернизировал наш коллектив.solr до 5.0.3. Пока это выглядит очень хорошо, и я больше не встречался с «BlobError». Я вернусь к этой теме, когда переиндексация будет завершена, но я уже очень оптимистичен :) –