2

Я хотел бы понять следующие значения типов данных и атрибутов для следующих данных, понимая, что он может принять правильное решение для выбора алгоритма классификации или кластеризации.Понимание значений типов данных и атрибутов

мои данные состоят из 100 папок, содержащих изображения в каждой из них, поэтому я выбрал некоторый контент для категорического эти изображения на основе его содержания как {море, небо, лев .... и т.д.}

       categorical- attributes 

folder-name total images  sea   sky  food  animals 
folder1   100   10   2  0   5 
folder2   20    0   1  15  3 
etc. 

всего изображений относятся к общим изображениям в этой папке, число в каждой категории - это частота изображений, найденных в каждой папке, например, морская картинка находится в папке 1 10 (10 изображений - морская фотография) и т. Д.

Я знаю, что значения здесь дискретны, но каковы атрибуты {интервал, номинал, порядковый номерЗначениебыло сгруппировано на основе простого сравнения: folder1.image1 = sea, если да, тогда 1 в противном случае равно 0, тогда я сгруппировал значения изображений, чтобы объявить приведенную выше таблицу, в случае преобразования значений частоты в порядковый номер, вычисляя частоту, если ее 10%, тогда 1, 20%, тогда 2, так правильно, любые советы спасибо.

+0

Это зависит от того, что вы ищете. Вы можете применять простой процентный подход и кластер по количеству похожих терминов (файлов) в документе (папке). Вы можете применить более сложный механизм, такой как tf-idf, для определения редких терминов (файлов) и кластерных документов (папок) соответственно. – IgorM

+0

Могу ли я применить TF.IDF для таких типов данных, как документы, моя цель - сгруппировать похожие документы, которые разделяют большинство из этих атрибутов, например, могут дать мне кластер 1 {folder1, folder10} класс sea + animals –

+0

или могут дать мне кластеры для папок с большинством частотных атрибутов, таких как cluster1 = {folder1, folder 2 ... folder10}, который имеет море фотографии, любая идея, пожалуйста, –

ответ

0

Как я уже говорил в моих комментариях вы реализуете различные подходы к кластеру:

  1. евклидово расстояние (позволяет сказать, что выборочные 10% наиболее часто встречающихся терминов и построить пространство соответственно (X .. п ось) и их измеряют расстояние между документами (папки)
  2. Jaccard индекс
  3. CLIQUE выглядит интересно, но я не достаточно хорошо знаком с ним.
  4. тс-IDF хорошо для пятнистость, не частые термины (файлы) и утверждают, что документы, эти термины похожи и принадлежат к одному и тому же класс.

Как я уже говорил, я начинал с чего-то действительно простого, например, ранжирования терминов или евклидова расстояния, чтобы «почувствовать» данные. По мере поступления вы получите больше идей

+0

Так что мои данные являются категориальными атрибутами, а значения становятся порядковыми {10%, 20% ...100%}, поэтому, если учесть каждую частоту, я могу получить фракцию, например, 11%, 12% я могу ее разбить, как {0-10%} составляет 1, 10-20% равно 2, поэтому в этом случае я могу получить значения атрибутов частоты –

+0

Простейшей вещью для самого начала является ранг по срокам (файлам). Скажем, 30% файлов FolderA - «море», 20% - «небо», а 12% - «еда» (10% - порог). Это ваш рейтинг для папки A («море», «небо», «еда»). Посмотрите, есть ли другие папки с похожим ранжированием. Это простейшая модель. Вы можете сделать это мгновенно. Затем попробуйте евклидово расстояние, основанное на том же подходе. – IgorM

+0

спасибо, наконец, каждая категория - это измерение, поэтому для моих данных 4 измерения, если я увеличил категорию на 3, это станет 7-мерным, поэтому каков мой тип данных атрибутов {порядковый номер, интервал, масштаб ..}, чтобы изучить алгоритмы, которые обратитесь к этим типам данных, спасибо –

 Смежные вопросы

  • Нет связанных вопросов^_^