Я понимаю, что scikit поддерживает n-граммы с помощью Vectorizer. Но это только строки. Я хотел бы использовать статистическую модель языка (https://en.wikipedia.org/wiki/Language_model), как этот: http://www.nltk.org/_modules/nltk/model/ngram.html.Использование языковых моделей для взвешивания терминов
Итак, я хочу, чтобы векторный указатель использовал вероятность в виде веса термина, а не tf-idf или просто количество токенов. Есть ли причина, почему это не поддерживается scikit? Я относительно неопытен с языковым моделированием, поэтому я не уверен, что этот подход является хорошей идеей для классификации текста.