Я получаю «обнаруженную молнию»! исключения для некоторых из наших больших HTML-файлов (ранее преобразованных из PDF), которые являются законными файлами, при попытке индексировать их с помощью Solr. Я хотел бы либо увеличить лимит обнаружения бомбы, либо отключить его, поскольку только подмножество доверенных пользователей может вводить в систему некоторые известные документы.Как отключить (или увеличить лимит) обнаружение Zip-бомбы в Tika с помощью Solr config?
В документации по Solr указано, что для него может быть предоставлен файл конфигурации Tika, но я не смог найти в документации Tika, как установить выходной порог SecureContentHandler, или, возможно, заменить этот обработчик на другой, который делает не препятствует zip-бомбе ...
Как я могу указать такое изменение в файле конфигурации Tika?
Я думаю, вам нужно посмотреть конфигурацию SOLR для этого. Конфигурация Tika позволяет вам контролировать используемые парсерами и детекторами. Использование/не использование/настройка «SecureContentHandler» - это приложение, это до того, как вы позвоните в Tika – Gagravarr
. Именно в документации упоминается только о настройке парсеров и детекторов, но не обработчиках содержимого. Я не знаю, как настроить Tika config, чтобы настроить SecureContentHandler, который ищет обнаружение молнии. Если это можно сделать только из приложений, это значит, что я не смог бы обрабатывать эти документы с помощью Solr ... Надеюсь, что есть какой-то способ достичь того, что я хочу, с Solr, не прибегая к реализации какого-либо пользовательского класса в Java. .. – rosenfeld
Вы не можете сделать это в Tika Config, вам нужно сделать это в SOLR – Gagravarr