Я работаю над проблемой кластеризации документов, и для этого мне нужно получить частоту слов в наборе данных документа.Хранение частоты слова в огромном наборе данных
На данный момент я использую тривиальный подход: создать таблицу слов и добавить столько столбцов, сколько количество документов, содержащихся в наборе данных, получение что-то вроде
word | document1 | document2 | ... | document n |
Такой подход, даже если он медленный, работает для небольших наборов данных (содержащих менее 100 документов). Проблема в том, что теперь я должен иметь дело с огромными, содержащими более 700 документов, и я чувствую, что должен быть более умный способ справиться с этим: проблема в том, что я не могу думать ни о чем другом.
Итак, вопрос в том, как я могу эффективно отслеживать частоту слов в документе?
PS: Учтите, что количество слов на один документ или размер набора данных неизвестно, но разумная верхняя граница должна составлять 2000 слов на один документ и 2000 документов на один набор данных.