У меня есть список предложений (например, «Это примерное предложение») и глоссарий терминов (например, «предложение», «примерное предложение») и нужно найти все термины, которые соответствуют предложению с отсечкой на некоторых Левенштейн.Как эффективно найти все нечеткие совпадения между набором терминов и списком предложений?
Как я могу сделать это достаточно быстро? Разделение предложений, использование FTS для поиска слов, которые появляются в терминах и фильтрации терминов по отношениям, но это довольно медленно. Прямо сейчас я использую sphinxsearch + python-Levelshtein, есть ли лучшие инструменты?
Будет ли обратный поиск: соответствие FTS условиям в предложении быстрее?
* «Как я могу сделать это достаточно быстро?» * - как быстро * «достаточно быстро» *? * «Будет ли обратный поиск: соответствие FTS условиям в предложении быстрее?» * - почему бы не попробовать и не узнать? – jonrsharpe
Быстрее, чем сейчас, в этот момент может потребоваться несколько секунд и вы хотите сделать это как минимум в два раза быстрее. – x3al
* «Быстрее, чем сейчас» * совсем не полезно. * «по крайней мере в два раза быстрее» * по крайней мере выполнимо. – jonrsharpe