The Spacy documentaion не очень понятен в использовании класса Matcher с несколькими фразами, но есть многозадачное соответствие example в репозитории Github.
В последнее время я столкнулся с такой же проблемой, и я получил ее, как показано ниже. Мой текстовый файл содержит одну запись на строку с фразой и ее описание, разделенное символом «::».
import spacy
import io
from spacy.matcher import PhraseMatcher
nlp = spacy.load('en')
text = nlp(u'Your text here')
rules = list()
# Create a list of tuple of phrase and description from the file
with io.open('textfile','r',encoding='utf8') as doc:
rules = [tuple(line.rstrip('\n').split('::')) for line in doc]
# convert the phrase string to a spacy doc object
rules = [(nlp(item[0].lower()),item[-1]) for item in rules ]
# create a dictionary for accessing value using the string as the index which is returned by matcher class
rules_dict = dict()
for key,val in rules:
rules_dict[key.text]=val
# get just the phrases from rules list
rules_phrases = [item[0] for item in rules]
# match using the PhraseMatcher class
matcher = PhraseMatcher(nlp.vocab,rules_phrases)
matches = matcher(text)
result = list()
for start,end,tag,label,m in matches:
result.append({"start":start,"end":end,"phrase":label,"desc":rules_dict[label]})
print(result)