Я хочу собрать 1,5 миллиона химических соединений. Это означает, что матрица расстояния 1,5 х 1,5 млн ...Кластеризация огромной матрицы данных в python?
Я думаю, что я могу создать такую большую таблицу, используя pyTables, но теперь - имея такую таблицу, как я ее сгруппирую?
Я предполагаю, что я не могу просто пройти pyTables объекта к одному из scikit узнать кластеризацию методы ...
Есть ли питон на основе структуры, которые будут принимать мой огромный стол и сделать что-то полезное (ложь) кластерный с ним ? Возможно, в распределенной форме?
Почему это должно быть python? Для такого размера данных естественным путем можно решить его в автономном режиме через специализированное программное обеспечение. Обычно такая матрица была бы очень разреженной или ее можно было бы считать разреженной, применяя некоторый весовой порог. В этом случае это также можно рассматривать как проблему кластеризации графа. – micans
Потому что это вопрос, который я задал. Если вы не знаете ответа, почему вы комментируете? – mnowotka
Я знаю немного о кластеризации, и кажется странным, что вы зависаете на определенном языке программного обеспечения для того, что представляет собой крупномасштабную проблему интеллектуального анализа данных. Вы пытаетесь решить проблему, или вам просто нравится быть snarky? Это неподдельный вопрос - почему он должен быть питоном? – micans