2

Я пытаюсь построить модель прогнозирования с использованием данных пользователя. Ввод модели - это метаданные документов (дата публикации, название и т. Д.), А ярлык документа - это предпочтение пользователя (например, неприязнь). Я хотел бы задать несколько вопросов, на которые я столкнулся, надеясь получить ответы на некоторые вопросы:Обучение машине Предиктор обучения

  1. Есть способы более понравившиеся документы, чем не нравиться. Я где-то читал, что если кто-то тренирует модель с использованием большего количества входов одной метки, чем другой, это плохо влияет на производительность (модель имеет тенденцию классифицировать все на ярлык/результат, который имеет большинство входов
  2. Есть ли возможно, иметь вход для алгоритма ML, например, логистическая регрессия будет гибридной с точки зрения чисел и слов и как это можно сделать, например:

    input = [18,23,1,0, 'cryptography'] с меткой = [ «как»]

    также мы можем использовать вектор (который представляет собой слово, используя tfidf и т.д.) в качестве функции ввода (например, 50-размеры вектора)?

  3. Чтобы построить модель прогнозирования с использованием текстовых данных, единственный способ сделать это - вывести словарь из каждого слова, упомянутого в наших документах, а затем построить двоичный вход, который будет определять, указан ли термин или нет? Используя такую ​​версию, хотя мы теряем вес этого слова в праве на сбор? Можем ли мы использовать что-то как вектор word2vec как единый вход в контролируемой модели обучения?

Благодарим вас за внимание.

ответ

1
  1. Вы либо необходимости под выборку большего класса (взять небольшую случайную выборку в соответствии с размером меньшего класса), более-образец меньшего класса (начальной загрузки образца), или использовать алгоритм, который поддерживает несбалансированные данные - и для этого вам нужно будет прочитать документацию.

  2. Вам нужно превратить свои слова в векторный вектор. Столбцы - это все уникальные слова в вашем корпусе. Строки - это документы. Значения ячеек являются одним из следующих: отображается ли слово в документе, сколько раз оно появляется, относительная частота его появления или его оценка TFIDF. Затем вы можете использовать эти столбцы вместе со своими другими столбцами, отличными от слова.

Теперь вы, вероятно, имеете больше столбцов, чем строки, то есть вы получите особенность с матричными алгоритмами на основе, в этом случае вам нужно что-то вроде SVM или наивных байесовской.

+0

Благодарим за понимание! Отличный совет! – Swan87