2016-09-22 3 views
0

Я получаю «обнаруженную молнию»! исключения для некоторых из наших больших HTML-файлов (ранее преобразованных из PDF), которые являются законными файлами, при попытке индексировать их с помощью Solr. Я хотел бы либо увеличить лимит обнаружения бомбы, либо отключить его, поскольку только подмножество доверенных пользователей может вводить в систему некоторые известные документы.Как отключить (или увеличить лимит) обнаружение Zip-бомбы в Tika с помощью Solr config?

В документации по Solr указано, что для него может быть предоставлен файл конфигурации Tika, но я не смог найти в документации Tika, как установить выходной порог SecureContentHandler, или, возможно, заменить этот обработчик на другой, который делает не препятствует zip-бомбе ...

Как я могу указать такое изменение в файле конфигурации Tika?

+0

Я думаю, вам нужно посмотреть конфигурацию SOLR для этого. Конфигурация Tika позволяет вам контролировать используемые парсерами и детекторами. Использование/не использование/настройка «SecureContentHandler» - это приложение, это до того, как вы позвоните в Tika – Gagravarr

+0

. Именно в документации упоминается только о настройке парсеров и детекторов, но не обработчиках содержимого. Я не знаю, как настроить Tika config, чтобы настроить SecureContentHandler, который ищет обнаружение молнии. Если это можно сделать только из приложений, это значит, что я не смог бы обрабатывать эти документы с помощью Solr ... Надеюсь, что есть какой-то способ достичь того, что я хочу, с Solr, не прибегая к реализации какого-либо пользовательского класса в Java. .. – rosenfeld

+0

Вы не можете сделать это в Tika Config, вам нужно сделать это в SOLR – Gagravarr

ответ

1

Похоже, это было вызвано регрессией в самой Солри в какой-то момент. Подробнее в этом билете я создал, который был исследован Тим Аллисон:

https://issues.apache.org/jira/browse/TIKA-2091

я в конечном итоге заменить Тика, путем извлечения текста из HTML-документа непосредственно из моего приложения Ruby, используя Nokogiri (Nokogiri :: HTML (html_content) .text). Если это повлияет на вас, и вы хотите, чтобы он был исправлен в Solr, создайте билет в проекте Solr.

 Смежные вопросы

  • Нет связанных вопросов^_^