У меня есть набор документов, и я хотел бы преобразовать их в такую форму, чтобы она позволяла мне считать tfidf для слов в этих документах (чтобы каждый документ представляется вектором tfidf-чисел).Как создать (или сгенерировать) теги для nltk lemmatizers
Я думал, что достаточно назвать WordNetLemmatizer.lemmatize (word), а затем PorterStemmer - но все 'have', 'has', 'had' и т. Д. Не преобразуются в 'have' с помощью lemmatizer - и это касается и других слов. Затем я прочитал, что я должен дать подсказку для lemmatizer-tag, представляющего тип слова - будь то существительное, глагол, прилагательное и т. Д.
Мой вопрос: как получить эти теги ? Что я должен преувеличивать по этим документам, чтобы получить это?
Я использую python3.4, и я леммируюсь + вытесняю одно слово за раз. Я попробовал WordNetLemmatizer и EnglishStemmer от nltk, а также stem() от stemming.porter2.