2015-10-23 1 views
0

Мой набор данных состоит из 15000 образцов рыбного рынка, взятых в 150 портах. К сожалению, выборка не распределена равномерно, а некоторые порты имеют 1-10 образцы и другие 1000. Я хотел бы объединить эти порты вместе с тем, что я достигну оба из следующих:Как сгруппировать слабо отобранные области вместе в пространстве

  1. гаваней, которые географически близкие друг к другу, группируются вместе
  2. Конечные кластеры имеют примерно аналогичную плотность выборки, например 1000 образцов

Пункт №1 может быть выполнен самостоятельно, используя стандартную кластеризацию на основе расстояния. Но как я могу достичь # 2 поверх этого? .. На какие инструменты/методы я должен смотреть? (предпочтительно в R)

+0

Предложение для # 1; группа по длине: координаты lat? Не видя данных, и поэтому, если бы это было применимо, для кластеров гаваней можно было использовать «k-mean». 'k-means' использует эвклидовое расстояние между объектами, поэтому вы будете получать гардероб гардероб друг к другу сгруппированным. – amwill04

+0

Я должен был быть немного яснее. № 1 может быть достигнуто более или менее любым заданным «стандартным» методом кластеризации на основе расстояния между портами, например. k-средства, PAM, иерархическая кластеризация и т. д. Но кроме того, я хотел бы добавить ограничение, которое учитывает «вес» или «размер» точки, а также географическое расстояние, то есть количество взятых проб. Таким образом, я по существу ищу алгоритм, который может одновременно сбалансировать оба аспекта ... –

ответ

0

Алгоритмы кластеризации: для поиска структуры в ваших данных.

Любой алгоритм кластеризации, который «расколол» данные о гавани и объединил бы соседние гавани, имел бы не удалось, чтобы обнаружить эту структуру.

Итак, с кластеризацией вы точно определяете инструмент. Было бы разумно использовать кластеризацию для разделения ваших данных, если бы у вас не было информации о гавани вообще (но у вас есть эти данные). Кластеризация делает не забота о кластерах того же размера: он подчеркивает структуру, а не размер.

+0

Хорошо, это довольно справедливо, но я не совсем уверен, что согласен - существует множество примеров «ограниченного кластеризации» там, и можно представить себе, например, иерархический алгоритм с правилом остановки (т. е. не кластер, если n_samples> 1000). Но технические аспекты в стороне, если не следует искать алгоритмы кластеризации, где еще я должен смотреть? –

+0

Ограниченная кластеризация и т. Д. Пытаются направить обнаружение структуры, добавив дополнительную информацию о том, что является желательным свойством. Для вашей проблемы я бы попробовал простой жадный подход и стандартный решатель проблемы оптимизации. –