4
Удивительно, если есть встроенная функция Spark для объединения функций 1-, 2-, n-грамм в один словарь. Установка n=2
в NGram
с последующим вызовом CountVectorizer
приводит к словарю, содержащему только 2 грамма. Я действительно хочу объединить все частые 1 грамм, 2 грамма и т. Д. В один словарь для моего корпуса.Как объединить n-граммы в один словарь в Spark?
Спасибо, что имеет смысл. –
Альтернативой было бы объединение униграмм и биграмм с помощью 'VectorAssembler', а затем подача одного вектора в' CountVectorizer'. Я думаю, что это больше похоже на scikit-learn CountVectorizer. Не уверен, что это действительно имеет значение. –
@ danieln Если ничего не изменилось, VectorAssembler не может собрать массивы строк. – zero323