2013-12-08 2 views
1

У меня есть такой пример моих обучения данных (у меня есть 1000 фильмов для обучения), мне нужно, чтобы предсказать «бюджет» каждый фильм:Сериализации, классификация pyBrain, машинное обучению, прогнозирования

film_1 = { 
    'title': 'The Hobbit: An Unexpected Journey', 
    'article_size': 25000, 
    'producer': ['Peter Jackson', 'Fran Walsh', 'Zane Weiner'], 
    'release_date': some_date(2013, 11, 28), 
    'running_time': 169, 
    'country': ['New Zealand', 'UK', 'USA'], 
    'budget': dec('200000000') 
} 

ключи, такие как 'title', 'producer', 'country' можно рассматривать как функции машинного обучения, в то время как значения, такие как 'The Hobbit: An Unexpected Journey', 25000 и т. д., можно рассматривать как значения, используемые для процесса обучения. Тем не менее, при обучении вход в основном принимается как реальные числа, а не формат строк. Нужно ли мне преобразовывать такие поля, как 'title', 'producer', 'country' (поля, которые являются строками) в int (такие вещи, как классификация или сериализация, должны иметь место?) Или некоторые другие манипуляции, чтобы я мог использовать эти данные в качестве набора для обучения сеть?

ответ

0

мне было интересно ли это то, что вам нужно:

film_list=['title','article_size','producer','release_date','running_time','country','budget'] 
flist = [(i,j) for i, j in enumerate(film_list)] 
label = [ seq[0] for seq in flist ] 
name = [ seq[1] for seq in flist ] 
print label 
print name 

>>[0, 1, 2, 3, 4, 5, 6] 
['title', 'article_size', 'producer', 'release_date', 'running_time', 'country', 'budget'] 

Или вы можете использовать словарь непосредственно,

labels = film_1.keys() 
print labels 

# But the keys are sorted, labels[0] will give you 'producer' instead of 'title': 
>>['producer', 'title', 'country', 'release_date', 'budget', 'article_size', 'running_time'] 
+0

спасибо! но мне это нужно: [1, 2, 3, 4, 5, 6, 7] может быть – smith

+0

определить новую метку1 = ярлык + 1. Затем каждое число будет отображаться в film_list – lennon310