Я хотел бы подобрать сообщения в социальных сетях (короткий текст) в базу данных фильмов/телешоу. База данных содержит информацию о названиях фильмов или телешоу, персонажах и актерах. Если во входном тексте обнаружено достаточное количество доказательств, я хочу, чтобы алгоритм классифицировал текст к фильму, к которому он принадлежит, или ничего не делать, если недостаточно доказательств.Классификация текста без машинного обучения
Я знаком с подходами машинного обучения, но для них требуются учебные образцы и конечное число категорий. Мой алгоритм должен иметь возможность использовать контекст и быть масштабируемым для нового контента. Например, я не хочу, чтобы машина научилась распознавать фильмы «Гарри Поттера», но потом не узнала «Фантастические звери и где их найти», когда это будет выпущено.
Я понимаю, что решение этого вопроса - это частичное совпадение строк, но я хотел бы указать на правильное руководство для некоторых общих рекомендаций по этим проблемам. Я также заинтересован в распознавании слов с ошибками и назначении большего веса для определенных матчей и меньше для других.
Кроме того, в качестве побочного примечания должно выполняться сопоставление строк с помощью SQLite или вне его? Мое предположение для этого случая было бы снаружи, но я бы просто хотел убедиться.
Заранее благодарю за помощь!
Вы могли бы, вероятно, использовать API IBM AlchemyLanguage. Он может принимать текст и выходить из концепций. Например, «Love Robert Deniro in Heat» возвращается, Роберт Де Ниро, Хит, Аль Пачино и Майкл Манн. 4 ключевых компонента для идентификации фильма со ссылками на базу данных, из которой он вытащил. – Chris
Спасибо за предложение, я никогда не думал, что буду работать с Уотсоном. Я проверю это сразу. – humma4