В моем проекте мы пытаемся вычислить текстовое сходство набора документов, для которого я столкнулся с 2 проблемами.Использование HBase для извлечения данных для расчета сходства текста с помощью Mahout
Я не хочу пересчитывать термины Частота документов, которые я ранее рассчитывал. например У меня 10 документов, и я рассчитал временную частоту и обратную частоту документов для всех 10 документов. Затем я получаю еще 2 документа. Теперь я не хочу рассчитать временную частоту для уже существующих 10 документов, но хочу рассчитать TF для новых 2, которые вошли, а затем использовать TF для всех 12 документов и рассчитать IDF для 12 документов как все. Как рассчитать IDF всех документов без повторного вычисления TF существующих документов?
Количество документов может увеличиться, что означает использование подхода с использованием памяти (InMemoryBayesDatastore) может стать громоздким. Я хочу сохранить TF всех документов в таблице HBASE и при поступлении новых документов, я вычисляю TF новых документов, сохраняю их в таблице HBASE, а затем я использую эту таблицу HBASE для извлечения TF всех документы для расчета ИДФ. Как я могу использовать HBase для предоставления данных для сходства текста Mahout вместо того, чтобы извлекать его из файла последовательности?