2016-09-01 7 views
0

Я использую nutch и solr для crawling.nutch сканировал и проиндексировал содержимое с тамильского языка website.but во время поиска в solr, я даю слова тамилов, данное слово было преобразован в unicode .so, не удалось найти конкретный контент в индексированных документах.Как искать слово tamil в индексированном содержимом в solr

+0

Можете ли вы приложить картинку или привести примеры? Это помогает нам лучше понять вопрос. Что вы подразумеваете под «преобразованием в unicode»? – SibiCoder

+0

Спасибо за ответ - После того, как Crawling Tamil содержимое с сайта с помощью nutch, В окне запроса solr - я даю запрос как *: *, он отобразит все документы tamil. но введите слова tamil в поле запроса, например: விளையாட்டு, solr не отображает конкретный документ, потому что он преобразован в некоторый юникод и поиск документов. – Mariselvan

+0

Я до сих пор не понял, что вы говорите. Как называется шрифт Tamil? Это шрифт Unicode или нет? – SibiCoder

ответ

2

Это должно быть проблема с кодировкой. попробуйте следующие решения: UTF-8 characters not showing properly Тамильские пробелы символов в блоке unicode находятся в промежутке между 2944 и 3071