2017-02-16 24 views
1

Я хочу использовать методы кластеризации для анализа двоичных данных. Я собрал данные через опрос, в котором я попросил пользователей выбрать ровно 20 функций из списка из 94 функций продукта. Столбцы в моих данных представляют 94 функции продукта, а строки представляют участников. Я пытаюсь сгруппировать аналогичных пользователей в разных группах пользователей на основе выбранных функций продукта. Каждый пользовательский кластер должен также указывать функции продукта, связанные с каждым кластером. Я использую некоторые инструменты кластеризации с открытым исходным кодом, такие как NCSS и JMP. Я пытался использовать метод нечеткой кластеризации для достижения моей цели, но, к сожалению, эти инструменты не имеют дело с двоичными данными. Можете ли вы предложить мне, какая техника действительно подходит для моих задач, а также какой онлайн-инструмент, который я могу использовать для использования кластерного анализа в моих данных? Поскольку это ограничение по времени, я не ищу код для себя, и я ищу только некоторые инструменты с открытым исходным кодом, которые имеют все доступные в них функции, которые я могу использовать как есть.Методы кластеризации для двоичных данных

ответ

2

Кластеризация для двоичных данных на самом деле не определена.

Вместо того, чтобы искать какой-то инструмент/функции, которые могут или не могут работать методом проб и ошибок, вы должны сначала попытаться ответить на «простой» вопрос:

Что такое хороший кластер, математически

Неясные условия не позволили следующие вопросы ответить тогда являются:.. I), когда кластеризация лучше, чем кластеризация B (т.е., как делает качество компьютерной вычислительной) и б), как это может быть найдено эффективно

Вы не получите далеко, если вы не понимаете, что вы делаете, просто вызвав случайные функции ...

Кроме того, группирует на самом деле то, что вы ищете? Большая часть времени с двоичными данными, например. Лучшим выбором является частая добыча полезных ископаемых.