Следующая не является идеальным, но это должно вам начать работу. Он использует nltk
, чтобы сначала разбивать текст на слова, а затем создает набор, содержащий стебли всех слов, фильтруя любое слово остановки. Он делает это как для вашего образца текста, так и для образца запроса.
Если пересечение двух наборов содержит все слова в запросе, это считается совпадением.
import nltk
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
ps = PorterStemmer()
def get_word_set(text):
return set(ps.stem(word) for word in word_tokenize(text) if word not in stop_words)
text1 = "The arterial high blood pressure may engage the prognosis for survival of the patient as a result of complications. TENSTATEN enters within the framework of a preventive treatment(processing). His(Her,Its) report(relationship) efficiency/effects unwanted is important. diuretics, medicine of first intention of which TENSTATEN, is. The therapeutic alternatives are very numerous."
text2 = "The arterial high blood pressure may engage the for survival of the patient as a result of complications. TENSTATEN enters within the framework of a preventive treatment(processing). His(Her,Its) report(relationship) efficiency/effects unwanted is important. diuretics, medicine of first intention of which TENSTATEN, is. The therapeutic alternatives are very numerous."
query = "engage the prognosis for survival"
set_query = get_word_set(query)
for text in [text1, text2]:
set_text = get_word_set(text)
intersection = set_query & set_text
print "Query:", set_query
print "Test:", set_text
print "Intersection:", intersection
print "Match:", len(intersection) == len(set_query)
print
Сценарий предусматривает два текста, один пассы, а другой не делает, он производит следующий вывод, чтобы показать вам, что он делает:
Query: set([u'prognosi', u'engag', u'surviv'])
Test: set([u'medicin', u'prevent', u'effici', u'engag', u'Her', u'process', u'within', u'surviv', u'high', u'pressur', u'result', u'framework', u'diuret', u')', u'(', u',', u'/', u'.', u'numer', u'Hi', u'treatment', u'import', u'complic', u'altern', u'patient', u'relationship', u'may', u'arteri', u'effect', u'prognosi', u'intent', u'blood', u'report', u'The', u'TENSTATEN', u'unwant', u'It', u'therapeut', u'enter', u'first'])
Intersection: set([u'prognosi', u'engag', u'surviv'])
Match: True
Query: set([u'prognosi', u'engag', u'surviv'])
Test: set([u'medicin', u'prevent', u'effici', u'engag', u'Her', u'process', u'within', u'surviv', u'high', u'pressur', u'result', u'diuret', u')', u'(', u',', u'/', u'.', u'numer', u'Hi', u'treatment', u'import', u'complic', u'altern', u'patient', u'relationship', u'may', u'arteri', u'effect', u'framework', u'intent', u'blood', u'report', u'The', u'TENSTATEN', u'unwant', u'It', u'therapeut', u'enter', u'first'])
Intersection: set([u'engag', u'surviv'])
Match: False
Im новое здесь, но я думаю, что это должно решить вашу проблему: http://stackoverflow.com/questions/30449452/python-fuzzy-text-search?rq=1 –
Посмотрите на [gensim] (https://radimrehurek.com/gensim/index.html), особенно раздел [сходство] (https://radimrehurek.com/gensim/tut3.html). – Jan