Я часть группы, работающей над большим проектом курса данных, и мы столкнулись с тем, что мы рассматриваем как проблему для НЛП. В настоящее время у нас есть группы данных, отформатированных в формате JSON, как, например:Натуральная обработка текстов по темам
"wine": {
"category": "socializing",
"category_id": 31,
"score": 0.0,
"topic_id": 611
}
"dragons": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 2137
},
"furry-fandom": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 48595
},
"legendarycreatures": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 10523
}
Бирки темы, связанные с соответствующей информацией (категории, популярность оценка, а категория/тема ID #). У нас есть связанные категории для каждой темы уже с тех пор, как API, который мы вытаскиваем, обрабатывает его. Наша проблема заключается в том, что категории слишком широкие, всего лишь 33, для определения каких-либо значимых тенденций, а темы слишком специфичны с перекрытием (например, драконов/легендарных факторов), а их слишком много - около 22 000.
Здесь находится НЛП; мы хотим создать какой-то набор супертемов, которые не столь широки, как «категория», но не так специфичны, как текущие темы. Пример с использованием «драконов» и «legandarycreatures» снова был бы вместе с другими, вписываясь в супер-тему «фантазии».
Немного больше фона, мы используем Python для захвата/обработки наших данных, мы хотели бы продолжать использовать его для этого, и никто из нас не имеет практического опыта работы с NLP.
Имея это в виду, мы хотели бы иметь некоторые предложения и помочь в этой области борьбы. Если есть лучшие способы или, возможно, это невозможно в НЛП, мы открыты для них. То, что мы пытаемся избежать, - это жесткое кодирование какой-то таблицы для категоризации.
TL; DR: Мы пытаемся классифицировать набор из 22 000 тем для соответствующих «супер-тем», которые являются более конкретными, чем текущие, но менее широкими, чем текущие категории. Мы пытаемся сделать это с помощью NLP при использовании Python, но не знаем, как это сделать, и также открыты для предложений.
Посмотрите на http://stackoverflow.com/a/22905260/610569 – alvas