Я анализирую набор данных GDELT и хочу определить тематические кластеры. Упрощающий значительно, GDELT анализирует новости и извлекает события. Как часть этого, он распознает, скажем, 250 «тем» и отмечает каждое «событие», которое он записывает в столбец, разделенный на пол-двоеточия список всех тем, определенных в статье.Поиск подходящего алгоритма кластеризации
С этой преамбулой, я извлек, на 2016 год, список приблизительно 350000 с запятой списков темы, такие как эти два:
- TAX_FNCACT; TAX_FNCACT_QUEEN; CRISISLEX_T11_UPDATESSYMPATHY; CRISISLEX_CRISISLEXREC; ВОЕННЫЕ; TAX_MILITARY_TITLE ; TAX_MILITARY_TITLE_SOLDIER; TAX_FNCACT_SOLDIER; USPEC_POLITICS_GENERAL1; WB_1458_HEALTH_PROMOTION_AND_DISEASE_PREVENTION; WB_1462_WATER_SANITATION_AND_HYGIENE; WB_635_PUBLIC_HEALTH; WB_621_HEALTH_NUTRITION_AND_POPULATION; MARITIME_INCIDENT; МОРСКОЙ; MANMADE_DISASTER_IMPLIED;
- CRISISLEX_CRISISLEXREC; ОБРАЗОВАНИЕ; SOC_POINTSOFINTEREST; SOC_POINTSOFINTEREST_COLLEGE; TAX_FNCACT; TAX_FNCACT_MAN; TAX_ECON_PRICE; SOC_POINTSOFINTEREST_UNIVERSITY; TAX_FNCACT_JUDGES; TAX_FNCACT_CHILD; ЗАКОНОДАТЕЛЬСТВО; EPU_POLICY; EPU_POLICY_LAW; TAX_FNCACT_CHILDREN; WB_470_EDUCATION;
Как вы можете видеть, оба этих списка содержат «TAX_FNACT» и «CRISISLEX_CRISISLEXREC». Таким образом, «TAX_FNACT; CRISISLEX_CRISISLEXREC» является кластером из 2 элементов. Лучшее понимание GDELT сообщает нам, что это не особенно полезный кластер, но он тем не менее.
Что я хотел бы сделать, в идеале, составлять словарь списков. Ключевым для словаря является количество элементов в кластере, а значение - список кортежей всех тематических кластеров с таким «ключевым» числом элементов в паре с количеством раз, когда этот кластер появился. Этот идеальный алгоритм будет работать до тех пор, пока не будет идентифицирован самый большой кластер.
Существует ли уже алгоритм, который я могу использовать для этой цели, и если да, то как он называется? Если бы я должен был догадаться, я бы предположил, что мы создали что-то, чтобы извлечь кластеры x-item, а затем я бы просто сделал цикл из 2->? пока я не получу никаких результатов.
возможно, наука о данных http://datascience.stackexchange.com/ или информатика http://cs.stackexchange.com/ - лучшее место, чтобы задать этот вопрос. – rsm
Спасибо, я не был уверен. Я буду спрашивать в datascience. – jeromeyers
Не переставляйте вопросы. Отметьте модератором, чтобы перенести вопрос. Рекомендация cs плохая, я бы предпочел предложить статистику. –