2015-03-16 4 views

ответ

0

Sphinx позволяет определить получение более пяти слов вокруг матчей: http://sphinxsearch.com/docs/current.html#api-func-buildexcerpts http://pat.github.io/thinking-sphinx/excerpts.html

Но я не думаю, что есть какой-нибудь способ, чтобы иметь полноту оригинального текста возвращаемые - вы можете установить around в быть очень, очень большим, но Сфинкс, вероятно, не построен, чтобы справиться с этим надежно/быстро. Возможно, стоит посмотреть на другие инструменты для обработки этого аспекта?

+0

Спасибо за ваш ответ, похлопываем! У меня есть контент с текстом и изображениями, и я хочу привести его в результатах поиска «как есть» с подсветкой ключевых слов. Есть ли способ извлечь токенизированные ключевые слова из выдержек? Я ищу функцию «ключевые слова», но я не могу понять, как ее использовать с Thinking Sphinx. – del

+0

'keywords' - это функция выдержки - то же самое, просто другая метка (это были отрывки из старого бинарного синтаксиса). Вы можете попробовать вручную grepping через свой контент, чтобы выделить ключевые слова для поиска - он будет более надежным, чем Sphinx, если ваш контент HTML, но предоставлен, но не идеален. – pat