Я пытаюсь использовать инструментарий NLTK для получения места извлечения, даты и времени из текстовых сообщений. Я только что установил набор инструментов на моей машине, и я написал этот быстрый фрагмент кода, чтобы проверить это:NLTK для распознавания именных имен
sentence = "Let's meet tomorrow at 9 pm";
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print nltk.ne_chunk(pos_tags, binary=True)
Я предполагал, что он определит дату (завтра) и времени (9 вечера). Но, на удивление, это не осознавало этого. Я получаю следующий результат, когда я запускаю мой код выше:
(S (GPE Let/NNP) 's/POS meet/NN tomorrow/NN at/IN 9/CD pm/NN)
Может кто-то помочь мне понять, если я что-то отсутствует или NLTK просто не достаточно зрелой, чтобы помечать дату и время правильно. Благодаря!
На самом деле NLTK предоставляет привязки для NERTagger от Stanford ('from nltk.tag.stanford import StanfordNERTagger'). Тем не менее вам нужно загрузить источник java, но от него много помощи. – Pithikos