Я пытаюсь построить модель прогнозирования с использованием данных пользователя. Ввод модели - это метаданные документов (дата публикации, название и т. Д.), А ярлык документа - это предпочтение пользователя (например, неприязнь). Я хотел бы задать несколько вопросов, на которые я столкнулся, надеясь получить ответы на некоторые вопросы:Обучение машине Предиктор обучения
- Есть способы более понравившиеся документы, чем не нравиться. Я где-то читал, что если кто-то тренирует модель с использованием большего количества входов одной метки, чем другой, это плохо влияет на производительность (модель имеет тенденцию классифицировать все на ярлык/результат, который имеет большинство входов
Есть ли возможно, иметь вход для алгоритма ML, например, логистическая регрессия будет гибридной с точки зрения чисел и слов и как это можно сделать, например:
input = [18,23,1,0, 'cryptography'] с меткой = [ «как»]
также мы можем использовать вектор (который представляет собой слово, используя tfidf и т.д.) в качестве функции ввода (например, 50-размеры вектора)?
- Чтобы построить модель прогнозирования с использованием текстовых данных, единственный способ сделать это - вывести словарь из каждого слова, упомянутого в наших документах, а затем построить двоичный вход, который будет определять, указан ли термин или нет? Используя такую версию, хотя мы теряем вес этого слова в праве на сбор? Можем ли мы использовать что-то как вектор word2vec как единый вход в контролируемой модели обучения?
Благодарим вас за внимание.
Благодарим за понимание! Отличный совет! – Swan87