Мне нужно будет получить список всех документов в индексе/коллекции GSA 7, которые имеют одну или несколько конкретных ссылок. Итак, у меня есть список URL-адресов и вам нужно найти любые документы, которые содержат их (в теле документа, а не метаданных). Существует около 700 000 документов, поданных из UCM (они индексируются полнотекстовым текстом). Количество документов, содержащих ссылки, слишком велико, чтобы получить его через регулярный поиск. Есть ли способ OOTB, чтобы добраться до этого? Каким будет путь? Я думал о создании отдельной коллекции, но критерии фильтрации работают только на URL-адресах, а не на содержимое файлов.GSA - Получить подмножество индекса
Спасибо заранее, Z
Это две хорошие идеи, о которых я не знал, спасибо. Один вопрос относительно DocumentFilter: я вижу, как метаданные можно легко изменить. Но как я могу ссылаться на текст внутри документа (если есть способ)? Поэтому в моем случае мне нужно будет найти кучу URL-адресов. Использую ли я контент и рассматриваю его как обычный тег? Кроме того, возможно ли изменить тело документа? Я бы предположил, что нет. – user1681189
Прошло некоторое время с тех пор, как я пробовал, но да, я уверен, что если вы реализуете свой собственный класс DocumentFilter, вы сможете получить доступ к контенту. Если я смогу найти пример, я отредактирую свой ответ. – BigMikeW