2015-05-05 9 views
0

Мою среду: 8GB Ram ноутбук с Ubuntu 14.04, Solr 4.3.1, 3.10.0 carrot2workbenchGot Java куча ошибок размера при попытке кластера 15980 документов через carrot2workbench

Моего Solr индекс: 15980 документов

Моими Проблема: кластер всех документов с алгоритмом kmeans

когда я понизиться запросом в carrot2workbench (запрос: :), я всегда получаю ошибку Java размера кучи при использовании более чем ~ 1000 результатов. Я начал Solr с -Xms256m -Xmx6g, но он все еще встречается.

Действительно ли это проблема с размером кучи или может быть где-то еще?

ответ

0

Ваши подозрения верны, это проблема размера кучи или, точнее, ограничение масштабируемости. Прямо из carrot2 Часто задаваемые вопросы: http://project.carrot2.org/faq.html#scalability

Какова шкала кластеризации Carrot2 относительно количества и длины документов? Важнейшей характеристикой алгоритмов Carrot2, о которой следует помнить, является то, что они выполняют кластеризацию в памяти. По этой причине, как правило, Carrot2 должен успешно обрабатывать до тысячи документов, по несколько абзацев каждый. Для алгоритмов, предназначенных для обработки миллионов документов, вы можете проверить проект Mahout.

Разработчик также писали об этом здесь: https://stackoverflow.com/a/28991477

Хотя разработчики рекомендуют Mahout, и это, вероятно, путь, так как вы не были бы связаны с ограничениями кластеризации в памяти, как в carrot2, могут существовать и другие возможности, хотя:

  1. Если вы действительно любите carrot2, но не обязательно K-средства, вы могли бы взглянуть на коммерческую Lingo3G, на основе «Время кластеризации 100000 фрагментов [s ] "и примечание (***) на http://carrotsearch.com/lingo3g-comparison он должен уметь обрабатывать больше документов. Проверьте также их часто задаваемые вопросы в разделе «Каково максимальное количество документов, которые Lingo3G может группировать?» на http://carrotsearch.com/lingo3g-faq

  2. Постарайтесь свести к минимуму размеры ваших меток, на которых k-средство выполняет кластеризацию. Вместо кластеризации по всему содержимому документов попытайтесь сгруппировать на абстрактные/сводные или извлечь важные ключевые слова и кластер на них.

+0

Благодарим вас за освобождение 1000 документов k-средств. Это делает проблему понятной для меня. Я смотрю на Lingo3G и Lingo параллельно, так что, возможно, это основной путь, чтобы пойти или реализовать сам альгос. И я попытаюсь немного поиграть с размерами этикеток. Еще раз спасибо! – user1337

0

Кажется, что морковь использует много для большой памяти.

K-средства не нуждаются в большой памяти - одно целое на документ.

Таким образом, вы должны иметь возможность запускать k-средства по миллионам документов в памяти; даже с векторами документа в памяти.

документов 16k не много, поэтому я не понимаю, почему вы столкнулись с проблемой с хорошей реализацией. Кажется, они действительно хотят, чтобы вы купили коммерческую версию, чтобы зарабатывать на жизнь! Поездка Махут кажется мне излишней. Полагаю, ваши данные по-прежнему вписываются в основную память, поэтому не тратьте время на распространение по сети, которая в миллион раз медленнее вашей памяти.

Возможно, вы используете k-означает себя. Это не сложно ...

+0

Спасибо за ваш ответ! Thats, что я думал (16k не много), так что я буду изучать реализацию algo себя и других algos. Приветствую! – user1337

 Смежные вопросы

  • Нет связанных вопросов^_^