Классификация текста без машинного обучения

Я хотел бы подобрать сообщения в социальных сетях (короткий текст) в базу данных фильмов/телешоу. База данных содержит информацию о названиях фильмов или телешоу, персонажах и актерах. Если во входном тексте обнаружено достаточное количество доказательств, я хочу, чтобы алгоритм классифицировал текст к фильму, к которому он принадлежит, или ничего не делать, если недостаточно доказательств.Классификация текста без машинного обучения

Я знаком с подходами машинного обучения, но для них требуются учебные образцы и конечное число категорий. Мой алгоритм должен иметь возможность использовать контекст и быть масштабируемым для нового контента. Например, я не хочу, чтобы машина научилась распознавать фильмы «Гарри Поттера», но потом не узнала «Фантастические звери и где их найти», когда это будет выпущено.

Я понимаю, что решение этого вопроса - это частичное совпадение строк, но я хотел бы указать на правильное руководство для некоторых общих рекомендаций по этим проблемам. Я также заинтересован в распознавании слов с ошибками и назначении большего веса для определенных матчей и меньше для других.

Кроме того, в качестве побочного примечания должно выполняться сопоставление строк с помощью SQLite или вне его? Мое предположение для этого случая было бы снаружи, но я бы просто хотел убедиться.

Заранее благодарю за помощь!

источник

2017-02-13 humma4

Вы могли бы, вероятно, использовать API IBM AlchemyLanguage. Он может принимать текст и выходить из концепций. Например, «Love Robert Deniro in Heat» возвращается, Роберт Де Ниро, Хит, Аль Пачино и Майкл Манн. 4 ключевых компонента для идентификации фильма со ссылками на базу данных, из которой он вытащил. – Chris

Спасибо за предложение, я никогда не думал, что буду работать с Уотсоном. Я проверю это сразу. – humma4

Что вы ищете, это система поиска информации на основе нечетких правил. Это потребует некоторых правил ручной работы и нечеткого соответствия (обычно с использованием Lucene) для сопоставления запросов с базой знаний сущностей/документов.

Смотрите эту статью для примера:

Осуществление эффективной нечеткой логики на основе информационно-поисковая система https://arxiv.org/pdf/1503.03957.pdf

источник

2017-07-20 13:42:49 fjxx

Классификация текста без машинного обучения

ответ

Смежные вопросы