2015-06-17 5 views
0

Я использую dbscan для точек кластеризации, так как мои баллы более 1 миллиона, я использую r * -tree тоже.ELKI DBSCAN за миллионы файлов

Я использую Елки в командной строке:

java -cp elki.jar 
de.lmu.ifi.dbs.elki.application.KDDCLIApplication 
-db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory 
-algorithm clustering.DBSCAN 
-dbc.in points1.txt 
-dbscan.epsilon 20 
-dbscan.minpts 10 
-out results3/DBSCANeps20min10 

для маленьких файлов его хорошо, но на 4 миллиона файлов произошла ошибка:

at de.lmu.ifi.dbs.elki.database.ids.integer.DoubleIntegerArrayQuickSort.quickSort(Unknown Source) 
+1

Любой шанс, что вы используете старую версию ELKI? Также используйте массовую загрузку для R * -tree. Его * намного быстрее. –

+0

спасибо @ErichSchubert, я использовал версию 0.6.0 (2014, январь, 10), проблема в этом? –

+1

Тогда это старая проблема. Используйте фиксированные, более новые версии! –

ответ

2

Это известная ошибка в старой версии ELKI, когда имеется много повторяющихся расстояний.

Это может быть разрешено путем обновления до текущей версии.