Мне нужно придумать способ сортировки и отображения наиболее релевантных данных пользователям. Наши данные состоят из нескольких n-граммов, которые извлекаются из Social Media. Мы называем эти «темы».Де-дублирующие наборы n-граммов
Проблема, с которой я сталкиваюсь, заключается в том, что данные содержат много дублирования. Хотя каждая строка не является прямым дубликатом другого, они являются подмножествами. Для пользователя эта информация дублируется. Вот некоторые примерные данные:
{
"count": 1.0,
"topic": "lazy people"
},
{
"count": 1.0,
"topic": "lazy people taking"
},
{
"count": 1.0,
"topic": "lazy people taking away food stamps"
}
Ребро Дело в том, что фраза «лентяи» могут быть извлечены из других фраз. Например, «ленивые люди счастливы». Использование наименьшего общего знаменателя («ленивые люди» в этом случае) не кажется хорошей идеей, потому что конечный пользователь не будет представлен в разных контекстах («отнимая продовольственные талоны» и «счастливы»).
С другой стороны, использование самого длинного N-грамма может быть слишком большой информацией. В приведенном выше примере это кажется логичным. Однако это может быть не всегда сохраняют силу.
Моя общая цель - представить эти данные таким образом, чтобы они были информативными и оценивались.
Существуют ли существующие решения и соответствующие алгоритмы для решения этого класса проблем?
Примечание: Первоначально мой вопрос был чрезвычайно расплывчатым и неясным. Фактически, это привело меня к смене вопроса, потому что то, что мне действительно нужно, - это руководство в отношении того, каким должен быть мой конечный результат.
Примечание 2: Сообщите мне, если я неправильно использовал какие-либо условия или должен изменить название этого вопроса, чтобы улучшить другие, которые ищут ответы на этот вопрос.
Что именно вы пытаетесь достичь? Существует несколько способов сократить пространство для ваших n-граммов, в зависимости от ваших потребностей. –
Я пытаюсь отобразить отсортированный список всех N-граммов без отображения коллизий. Легкий пример: если бы это были все данные, которые у меня были, то как «Мир», так и «Мир хорош» будут отображаться как эквивалентные по количеству, хотя было бы полезно отображать «Мир - это хорошо». Другой вопрос о том, что другие объекты в моей базе данных могут содержать «Мир» в виде 2 грамм, но «Мир жив» как 4-граммовый. Это помогает? – Kurtis
@JimMischel, я полностью изменил свой вопрос. Я не уверен, каков конечный результат - только «здесь есть тип данных, которые у меня есть» и «вот мои, несколько общие цели для достижения данных». В целом, мне кажется, мне нужен кто-то, чтобы помочь мне понять, как лучше всего преобразовать эту информацию для представления пользователю. – Kurtis