2016-12-10 16 views
0

Пожалуйста, вы можете показать мне пример входного файла для FDBSCAN в ELKI. Я получил сообщение об ошибке, как это:ELKI clustering FDBSCAN algorithm

Task failed 
de.lmu.ifi.dbs.elki.data.type.NoSupportedDataTypeException: No data type found satisfying: UncertainObject,field 
Available types: DBID DoubleVector,dim=2 
    at de.lmu.ifi.dbs.elki.database.AbstractDatabase.getRelation(AbstractDatabase.java:126) 
    at de.lmu.ifi.dbs.elki.algorithm.clustering.uncertain.FDBSCANNeighborPredicate.instantiate(FDBSCANNeighborPredicate.java:131) 
    at de.lmu.ifi.dbs.elki.algorithm.clustering.gdbscan.GeneralizedDBSCAN.run(GeneralizedDBSCAN.java:122) 
    at de.lmu.ifi.dbs.elki.algorithm.clustering.gdbscan.GeneralizedDBSCAN.run(GeneralizedDBSCAN.java:79) 
    at de.lmu.ifi.dbs.elki.workflow.AlgorithmStep.runAlgorithms(AlgorithmStep.java:105) 
    at de.lmu.ifi.dbs.elki.KDDTask.run(KDDTask.java:112) 
    at de.lmu.ifi.dbs.elki.application.KDDCLIApplication.run(KDDCLIApplication.java:61) 
    at [...] 

ответ

1

FDBSCAN требует данных типа UncertainObject, то есть объекты с информацией о неопределенности.

Если вы просто загрузите CSV-файл, данные будут определенными, и вы не сможете использовать неопределенную кластеризацию.

Существует несколько способов моделирования неопределенности. Они применяются как фильтры в пакете typeconversions.

  • UncertainSplitFilter может разделить вектор длины k * N на k возможных экземпляров, каждая из которых имеет длину N с равномерным весом.
  • WeightedUncertainSplitFilter похоже, но каждый пример также может иметь вес.
  • UncertainifyFilter может имитировать неопределенность, например. предполагая гауссовское или равномерное распределение вокруг исходного вектора.
    • UniformUncertainifier (У-модели, см Javadoc из UniformContinuousUncertainObject)
    • SimpleGaussianUncertainifier (см Javadoc из SimpleGaussianContinuousUncertainObject)
    • UnweightedDiscreteUncertainifier (BID Model см Javadoc из WeightedDiscreteUncertainObject)
    • WeightedDiscreteUncertainifier (как указано выше)
  • или добавьте свою информацию о неопределенности, расширив API!
+0

Спасибо Эрих! Не могли бы вы предоставить образец входного файла – kangarooo

+1

Зависит от того, какой фильтр и модель неопределенности вы используете. Обычно обычный CSV в порядке; но вам нужно четко понимать, как данные следует интерпретировать как неопределенные данные. –

+0

В основном я хочу решить эту проблему http://stats.stackexchange.com/questions/250776/event-similarity-based-on-probability-distance-measure], и ​​я был очень рад, что нашел этот замечательный инструмент. Я не знаю, как представить неопределенность по функции распределения расстояний, insted of points У меня есть многоугольники (например, города), в пределах которых вероятность того, что событие может произойти, равномерно распределена – kangarooo