0

Мы размышляем о системе рекомендаций, основанной на данных большого масштаба, но также ищем профессиональный способ сохранить динамическую структуру БД для работы быстрее. Мы рассматриваем некоторые альтернативные подходы. Один из них заключается в том, чтобы хранить обычную базу данных SQL, но она будет медленнее по сравнению с обычной структурой файлов. Во-вторых, использовать DB модели nosql, но она также несовместима с алгоритмами, которые мы используем, поскольку мы непрерывно вытягиваем данные в матрицу. Конечный подход, по нашему мнению, заключается в использовании нормальных файлов для хранения данных, но сложнее отслеживать изменения и следить за изменениями, так как нет метода запроса или редактора. Следовательно, существуют разные методы и плюсы и минусы. Какой будет ваш выбор и почему?Каков наиболее эффективный метод обработки крупномасштабных динамических данных для системы рекомендаций?

ответ

0

Я не уверен, почему вы так много раз упоминаете «файлы» и «файловую структуру», поэтому, возможно, я чего-то не хватает, но для эффективной обработки данных вы, очевидно, не хотите хранить вещи в файлах. Это дорого читать или записывать данные на диск, и трудно найти что-то, чтобы запрашивать файлы в файловой системе, которая является эффективной и гибкой.

Я предполагаю, что я хотел бы начать с продуктом, который уже делает рекомендацию:

http://mahout.apache.org/

Вы можете выбрать из различных алгоритмов для работы на данных для получения рекомендаций.

Если вы хотите сделать это самостоятельно, возможно, гибридный подход будет работать? Вы все равно можете использовать базу данных графа для представления отношений, но тогда каждый узел/вершина может быть указателем на базу данных документа или реляционную базу данных, где будет существовать более «полное» представление данных.