2017-02-22 19 views
0

Я анализирую набор данных GDELT и хочу определить тематические кластеры. Упрощающий значительно, GDELT анализирует новости и извлекает события. Как часть этого, он распознает, скажем, 250 «тем» и отмечает каждое «событие», которое он записывает в столбец, разделенный на пол-двоеточия список всех тем, определенных в статье.Поиск подходящего алгоритма кластеризации

С этой преамбулой, я извлек, на 2016 год, список приблизительно 350000 с запятой списков темы, такие как эти два:

  • TAX_FNCACT; TAX_FNCACT_QUEEN; CRISISLEX_T11_UPDATESSYMPATHY; CRISISLEX_CRISISLEXREC; ВОЕННЫЕ; TAX_MILITARY_TITLE ; TAX_MILITARY_TITLE_SOLDIER; TAX_FNCACT_SOLDIER; USPEC_POLITICS_GENERAL1; WB_1458_HEALTH_PROMOTION_AND_DISEASE_PREVENTION; WB_1462_WATER_SANITATION_AND_HYGIENE; WB_635_PUBLIC_HEALTH; WB_621_HEALTH_NUTRITION_AND_POPULATION; MARITIME_INCIDENT; МОРСКОЙ; MANMADE_DISASTER_IMPLIED;
  • CRISISLEX_CRISISLEXREC; ОБРАЗОВАНИЕ; SOC_POINTSOFINTEREST; SOC_POINTSOFINTEREST_COLLEGE; TAX_FNCACT; TAX_FNCACT_MAN; TAX_ECON_PRICE; SOC_POINTSOFINTEREST_UNIVERSITY; TAX_FNCACT_JUDGES; TAX_FNCACT_CHILD; ЗАКОНОДАТЕЛЬСТВО; EPU_POLICY; EPU_POLICY_LAW; TAX_FNCACT_CHILDREN; WB_470_EDUCATION;

Как вы можете видеть, оба этих списка содержат «TAX_FNACT» и «CRISISLEX_CRISISLEXREC». Таким образом, «TAX_FNACT; CRISISLEX_CRISISLEXREC» является кластером из 2 элементов. Лучшее понимание GDELT сообщает нам, что это не особенно полезный кластер, но он тем не менее.

Что я хотел бы сделать, в идеале, составлять словарь списков. Ключевым для словаря является количество элементов в кластере, а значение - список кортежей всех тематических кластеров с таким «ключевым» числом элементов в паре с количеством раз, когда этот кластер появился. Этот идеальный алгоритм будет работать до тех пор, пока не будет идентифицирован самый большой кластер.

Существует ли уже алгоритм, который я могу использовать для этой цели, и если да, то как он называется? Если бы я должен был догадаться, я бы предположил, что мы создали что-то, чтобы извлечь кластеры x-item, а затем я бы просто сделал цикл из 2->? пока я не получу никаких результатов.

+0

возможно, наука о данных http://datascience.stackexchange.com/ или информатика http://cs.stackexchange.com/ - лучшее место, чтобы задать этот вопрос. – rsm

+0

Спасибо, я не был уверен. Я буду спрашивать в datascience. – jeromeyers

+0

Не переставляйте вопросы. Отметьте модератором, чтобы перенести вопрос. Рекомендация cs плохая, я бы предпочел предложить статистику. –

ответ

1

Кластеризация здесь не будет работать.

То, что вы описываете, выглядит скорее как частые приготовки полезных ископаемых. Если задача состоит в том, чтобы находить частые комбинации «элементов» в списках.

+0

Прохладный, именно то, что я искал. Спасибо. – jeromeyers