У меня есть набор слов в предложении, в котором я обозначил и применил преобразование временной частоты.преобразование частоты искрового периода
int numFeatures = 9000;
hashingTF = new HashingTF().setInputCol("filtered").setOutputCol("features")
.setNumFeatures(numFeatures);
DataFrame rawFeaturizedData = hashingTF.transform(stopWordsRemoved);
rawFeaturizedData.show();
При печати кадра данных, я вижу значение, как показано ниже в колонке «Характеристика»
(9000,[2010,2113,2599,3807,5109,5849],[1.0,1.0,1.0,1.0,1.0,1.0])
9000 является количеством функций, сконфигурированных для вычисления частоты термина. Я установил это на 9000, поскольку после применения текстовых преобразований было сделано 8000 уникальных слов (удаление стоп-слов, lemmetization и т. Д.)
[2010,2113,2599,3807,5109,5849] - Я предполагаю, что это числа, присвоенные каждое слово в тексте (функции)
что такое [1.0,1.0,1.0,1.0,1.0,1.0]? - По определению, временная частота делает хеширование слов, а также вычисляет вес каждого слова. Это вес? Почему он всегда отображается как 1.0?