Если я использую TfidfVectorizer
от sklearn
для генерации векторов признаков, как:Как классифицировать новые документы с помощью tf-idf?
features = TfidfVectorizer(min_df=0.2, ngram_range=(1,3)).fit_transform(myDocuments)
Как бы то генерировать векторы признаков для классификации нового документа? Поскольку вы не можете вычислить tf-idf для одного документа.
Будет ли это правильный подход, чтобы извлечь имена функций с:
feature_names = TfidfVectorizer.get_feature_names()
, а затем подсчитывает частоту термина для нового документа в соответствии с feature_names
?
Но тогда я не получу веса, которые имеют информацию о важности слова.