Мой набор данных состоит из 15000 образцов рыбного рынка, взятых в 150 портах. К сожалению, выборка не распределена равномерно, а некоторые порты имеют 1-10 образцы и другие 1000. Я хотел бы объединить эти порты вместе с тем, что я достигну оба из следующих:Как сгруппировать слабо отобранные области вместе в пространстве
- гаваней, которые географически близкие друг к другу, группируются вместе
- Конечные кластеры имеют примерно аналогичную плотность выборки, например 1000 образцов
Пункт №1 может быть выполнен самостоятельно, используя стандартную кластеризацию на основе расстояния. Но как я могу достичь # 2 поверх этого? .. На какие инструменты/методы я должен смотреть? (предпочтительно в R)
Предложение для # 1; группа по длине: координаты lat? Не видя данных, и поэтому, если бы это было применимо, для кластеров гаваней можно было использовать «k-mean». 'k-means' использует эвклидовое расстояние между объектами, поэтому вы будете получать гардероб гардероб друг к другу сгруппированным. – amwill04
Я должен был быть немного яснее. № 1 может быть достигнуто более или менее любым заданным «стандартным» методом кластеризации на основе расстояния между портами, например. k-средства, PAM, иерархическая кластеризация и т. д. Но кроме того, я хотел бы добавить ограничение, которое учитывает «вес» или «размер» точки, а также географическое расстояние, то есть количество взятых проб. Таким образом, я по существу ищу алгоритм, который может одновременно сбалансировать оба аспекта ... –