ELKI в основном используется с численный данные.
В настоящее время, к сожалению, у ELKI нет «смешанного типа» данных.
ARFF анализатор будет разделить ваши наборы данных в нескольких отношений:
- 1-мерное численное соотношение, содержащее
age
- в LabelList отношение хранящего
sex
и region
- 1-мерный численное отношение, содержащее
salary
- a Относительное отношение LabelList
married
- 1-мерное численное соотношение хранения
children
- в LabelList отношение хранящий
car
Видимо это перепутались отношению метки, хотя. Но, кроме этого, этот подход отлично работает с наборами данных arff, которые состоят из числовых данных + метка класса, например - вариант использования, для которого был написан этот синтаксический анализатор. Это четко определенное и последовательное поведение, хотя и не то, что вы ожидали от него.
Алгоритм затем работал по первому отношению, с которым он мог работать, т. Е. Только age
.
Так вот то, что вам нужно сделать:
- Внедрение эффективного типа данных для хранения данных смешанного типа.
- Измените анализатор ARFF, чтобы получить отношение данных смешанного типа.
- Внесите функцию расстояния для этого типа, поскольку отсутствие представления данных смешанного типа означает, что у нас тоже нет дистанции.
- Выберите эту новую функцию расстояния в k-медоидах.
- Поделитесь этим кодом, чтобы другим не нужно было это делать снова.;-)
В качестве альтернативы вы можете написать сценарий для кодирования ваших данных в наборе цифровых данных, а затем он будет работать нормально. Но, на мой взгляд, результаты однострунного кодирования и т. Д. Обычно не очень убедительны.
Большое спасибо за ответ Эрих! К сожалению, сейчас у меня нет времени, но если я это сделаю, я обязательно разделим код! Тем не менее, я получил матрицу подобия, основанную на всех атрибутах, но я путаю, какой парсер выбрать для этого, не могли бы вы помочь с этим? – QPTR
Вы должны иметь возможность держать парсер так, как есть (он работал достаточно хорошо); и просто установите расстояние до дистанционной функции * внешнего * файла в k-медоидах. –
Большое спасибо! – QPTR