Я пытаюсь создать систему классификации с MLlib Apache Spark. Для этого я использовал алгоритм Naive Bayes в списке, и я буду использовать Java 8 для поддержки выражений лямбда. Я новичок в терминах лямбда-выражений и, следовательно, сталкиваюсь с трудностями при реализации на Java.Классификация с Spark MLlib в Java
Я имею в виду следующую ссылку, которая имеет образец, написанный на Scala, но я с трудом преобразовав его в Java 8.
Я застрял на следующей операции и не может получить мою голову вокруг него из-за мое незнание Scala,
val idfs = (termDocsRdd.flatMap(termDoc => termDoc.terms.map((termDoc.doc, _))).distinct().groupBy(_._2) collect {
// if term is present in less than 3 documents then remove it
case (term, docs) if docs.size > 3 =>
term -> (numDocs.toDouble/docs.size.toDouble)
}).collect.toMap
Может кто-то пожалуйста указать мне правильное направление о том, как построить векторы TfIdf для образцов текстовых документов в то время как использование операций Sparks РДДА для дис распределенная обработка?
спасибо lot samthebest! Это очень помогло. Я пытаюсь преобразовать это в Java и дам вам знать, как это происходит. – jatinpreet