Я хотел бы понять следующие значения типов данных и атрибутов для следующих данных, понимая, что он может принять правильное решение для выбора алгоритма классификации или кластеризации.Понимание значений типов данных и атрибутов
мои данные состоят из 100 папок, содержащих изображения в каждой из них, поэтому я выбрал некоторый контент для категорического эти изображения на основе его содержания как {море, небо, лев .... и т.д.}
categorical- attributes
folder-name total images sea sky food animals
folder1 100 10 2 0 5
folder2 20 0 1 15 3
etc.
всего изображений относятся к общим изображениям в этой папке, число в каждой категории - это частота изображений, найденных в каждой папке, например, морская картинка находится в папке 1 10 (10 изображений - морская фотография) и т. Д.
Я знаю, что значения здесь дискретны, но каковы атрибуты {интервал, номинал, порядковый номерЗначениебыло сгруппировано на основе простого сравнения: folder1.image1 = sea, если да, тогда 1 в противном случае равно 0, тогда я сгруппировал значения изображений, чтобы объявить приведенную выше таблицу, в случае преобразования значений частоты в порядковый номер, вычисляя частоту, если ее 10%, тогда 1, 20%, тогда 2, так правильно, любые советы спасибо.
Это зависит от того, что вы ищете. Вы можете применять простой процентный подход и кластер по количеству похожих терминов (файлов) в документе (папке). Вы можете применить более сложный механизм, такой как tf-idf, для определения редких терминов (файлов) и кластерных документов (папок) соответственно. – IgorM
Могу ли я применить TF.IDF для таких типов данных, как документы, моя цель - сгруппировать похожие документы, которые разделяют большинство из этих атрибутов, например, могут дать мне кластер 1 {folder1, folder10} класс sea + animals –
или могут дать мне кластеры для папок с большинством частотных атрибутов, таких как cluster1 = {folder1, folder 2 ... folder10}, который имеет море фотографии, любая идея, пожалуйста, –