Я использую запросы (Solr Admin) для поиска слов через два текстовых документа, которые находятся в моей HDFS. Как я могу получить имя документа, что слово встречается в. Я использую этот проект https://github.com/lucidworks/hadoop-solrSolr-Retrieve имя документа, в котором находится слово
Я создаю коллекцию с помощью bin/solr -e cloud
и я использую «data_driven_schema_configs» от сервера/Solr/configsets/ каталог.
Я tryied добавления <field name="fileName" type="string" indexed="true" stored="true" />
внутри управляемых-схем в ~/Solr-6.1.0/сервер/Solr/configsets/data_driven_schema_configs/конфе, а также изменить его имя на schema.xml, но в этом в каталоге нет файла dataConfig для добавления <field column="file" name="fileName"/>
, поскольку я вижу его в некоторых других сообщениях с похожими вопросами, но не для SolrCloud, поэтому я не знаю, правильно ли я пытаюсь. Какие изменения и в каких каталогах я должен сделать, чтобы это могло произойти.
Пример: Я ищу слово «наибольшее», которое можно найти в обоих документах. Как я могу понять, в каком документе это каждый результат, sample1.txt или sample2.txt
Если только эти поля в индексе, описывает документы, вы не можете. Как вы создавали индексные файлы? Эти значения 'id', по-видимому, являются фактическим текстом из документов, а не подходящими уникальными идентификаторами. – MatsLindh
Я использую этот проект https://github.com/LucidWorks/hadoop-solr @MatsLindh –
Перед тем, как задать вопрос, вы должны начать читать основы Solr. Как сказал @MatsLindh, первое, что вы должны предоставить подходящие уникальные идентификаторы для поля 'id'. Фактический текст из документов должен быть проиндексирован в соответствующем текстовом поле, см. [Типы полей Solr] (https://cwiki.apache.org/confluence/display/solr/Solr+Field+Types). Также, если вы хотите, чтобы имя совпадающих документов, почему бы не индексировать и не хранить имена документов? – EricLavault