Я работаю над проблемой классификации текста с несколькими метками с 10 ярлыками. Набор данных небольшой, + 7000 элементов и + -7500 ярлыков. Я использую python sci-kit learn и что-то странное пришло в результаты. В качестве базовой линии я начал использовать countvectorizer и на самом деле планировал использовать векторизатор tfidf, который, как я думал, будет работать лучше, но это не так. (0,76 против 0,65)TF-IDF-векторный анализатор не работает лучше, чем countvectorizer (sci-kit learn
Я не могу окунуться в голову, почему это может быть так? Существует 10 категорий, один из которых называется Особенно это дает гораздо более высокую производительность при использовании tfidf.
Кто-нибудь знает, когда tfidf может выполнять хуже, чем считать?
Что вы подразумеваете под f1 оценка? –