2013-10-07 12 views
0

Я борюсь с SpellCheckComponent в Solr (проверен с solr 4.4 и 4.5). У меня есть тип поля определяется следующим образом:Solr: LowerCaseFilterFactory не применяется в SpellCheckComponent

<fieldtype name="termSuggest" class="solr.TextField" positionIncrementGap="100"> 
<analyzer type="index"> 
    <tokenizer class="solr.WhitespaceTokenizerFactory" /> 
    <filter class="solr.LowerCaseFilterFactory" /> 
    <filter class="solr.PatternReplaceFilterFactory" pattern="(^[^A-Za-z0-9ÄÖÜßäöü]*|[^A-Za-z0-9ÄÖÜßäöü]*$)" 
     replacement="" replace="all" /> 
    <filter class="solr.LengthFilterFactory" min="2" max="60" /> 
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_de.txt" format="snowball" /> 
    <filter class="solr.ShingleFilterFactory" maxShingleSize="3" outputUnigrams="true" outputUnigramsIfNoShingles="true" 
     tokenSeparator=" "/> 
    <filter class="solr.RemoveDuplicatesTokenFilterFactory" /> 
</analyzer> 
<analyzer type="query"> 
    <tokenizer class="solr.WhitespaceTokenizerFactory" /> 
    <filter class="solr.LowerCaseFilterFactory" /> 
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_de.txt" format="snowball" /> 
    <filter class="solr.ShingleFilterFactory" maxShingleSize="99" outputUnigrams="false" outputUnigramsIfNoShingles="true" 
     tokenSeparator=" "/> 
</analyzer> 
</fieldtype> 

Исследования соответствующего поля с анализатором Solr администратора, можно видеть, что поле правильно проанализировано в индексе, и в режиме запроса. В частности, оно уменьшено.

Однако, если я использую это поле в SpellCheckerComponent, я получаю предложения только в том случае, если этот термин указан в нижнем регистре (например, «bautrokner» работает, «Bautrokner» - нет). Компонент и обработчик запроса определяются как предоставленные в solr wiki (я знаю, что черепица может не понадобиться для коррекции орфографии, но я также использую поле для автоматического предложения - с точно такой же проблемой):

<searchComponent name="spellcheck" class="solr.SpellCheckComponent"> 
<!-- Multiple "Spell Checkers" can be declared and used by this component --> 

<!-- a spellchecker built from a field of the main index --> 
<lst name="spellchecker"> 
    <str name="name">default</str> 
    <str name="field">_termsuggest</str> 
    <str name="classname">solr.DirectSolrSpellChecker</str> 
    <!-- the spellcheck distance measure used, the default is the internal levenshtein --> 
    <str name="distanceMeasure">internal</str> 
    <!-- minimum accuracy needed to be considered a valid spellcheck suggestion --> 
    <float name="accuracy">0.2</float> 
    <!-- the maximum #edits we consider when enumerating terms: can be 1 or 2 --> 
    <int name="maxEdits">2</int> 
    <!-- the minimum shared prefix when enumerating terms --> 
    <int name="minPrefix">1</int> 
    <!-- maximum number of inspections per result. --> 
    <int name="maxInspections">5</int> 
    <!-- minimum length of a query term to be considered for correction --> 
    <int name="minQueryLength">4</int> 
    <!-- maximum threshold of documents a query term can appear to be considered for correction --> 
    <!--<float name="maxQueryFrequency">0.01</float>--> 
    <!-- uncomment this to require suggestions to occur in 1% of the documents <float name="thresholdTokenFrequency">.01</float> --> 
</lst> 
</searchComponent> 

<requestHandler name="/spell" class="solr.SearchHandler" startup="lazy"> 
<lst name="defaults"> 
    <str name="df">_termsuggest</str> 
    <str name="spellcheck.dictionary">default</str> 
    <str name="spellcheck">on</str> 
    <str name="spellcheck.extendedResults">true</str> 
    <str name="spellcheck.count">10</str> 
    <str name="spellcheck.alternativeTermCount">5</str> 
    <str name="spellcheck.maxResultsForSuggest">5</str> 
    <str name="spellcheck.collate">true</str> 
    <str name="spellcheck.collateExtendedResults">true</str> 
    <str name="spellcheck.maxCollationTries">10</str> 
    <str name="spellcheck.maxCollations">5</str> 
</lst> 
<arr name="last-components"> 
    <str>spellcheck</str> 
</arr> 
</requestHandler> 

Я искал аналогичные проблемы в течение нескольких часов, но я не могу найти подсказок, в чем проблема. Я бы ожидал, что из-за анализатора запросов условие запроса должно быть уменьшено. Но, похоже, это не так.

Mathias

ответ

0

Проблема решена: я пропустил добавить queryAnalyzerFieldType:

<searchComponent name="spellcheck" class="solr.SpellCheckComponent"> 
    <!-- Multiple "Spell Checkers" can be declared and used by this component --> 
    <str name="queryAnalyzerFieldType">termSuggest</str> 
... 

Если нет queryAnalyzerFieldType указано, используется простой WhiteSpaceAnalyzer (https://issues.apache.org/jira/browse/SOLR-5111).

Mathias