У меня есть такой пример моих обучения данных (у меня есть 1000 фильмов для обучения), мне нужно, чтобы предсказать «бюджет» каждый фильм:Сериализации, классификация pyBrain, машинное обучению, прогнозирования
film_1 = {
'title': 'The Hobbit: An Unexpected Journey',
'article_size': 25000,
'producer': ['Peter Jackson', 'Fran Walsh', 'Zane Weiner'],
'release_date': some_date(2013, 11, 28),
'running_time': 169,
'country': ['New Zealand', 'UK', 'USA'],
'budget': dec('200000000')
}
ключи, такие как 'title'
, 'producer'
, 'country'
можно рассматривать как функции машинного обучения, в то время как значения, такие как 'The Hobbit: An Unexpected Journey'
, 25000
и т. д., можно рассматривать как значения, используемые для процесса обучения. Тем не менее, при обучении вход в основном принимается как реальные числа, а не формат строк. Нужно ли мне преобразовывать такие поля, как 'title'
, 'producer'
, 'country'
(поля, которые являются строками) в int
(такие вещи, как классификация или сериализация, должны иметь место?) Или некоторые другие манипуляции, чтобы я мог использовать эти данные в качестве набора для обучения сеть?
спасибо! но мне это нужно: [1, 2, 3, 4, 5, 6, 7] может быть – smith
определить новую метку1 = ярлык + 1. Затем каждое число будет отображаться в film_list – lennon310