В настоящее время я использую Solr-Cell, чтобы захватить содержимое нескольких html-страниц и проиндексировать их. Проблема в том, что у меня есть меню в заголовке, которое отображается на всех страницах. Это меню и все его элементы отображаются в результатах поиска. Я не хочу, чтобы это индексировалось.Solr: Исключение определенных тегов HTML или включение только определенных тегов в индексы
Как бы вы это сделали?
Можно ли исключить определенный DIV (с именем класса или id)?
Еще одно предостережение в этой проблеме заключается в том, что я новичок в SOLR. Я буду исследовать RegexReplaceProcessorFactory. В настоящее время я не уверен в том, чтобы отделить TIKA от SOLR. Мой код завершен на 95%, и мне остается только удалить пункты меню из результатов. В противном случае я бы потратил время. – mangesh