2016-07-09 7 views
-3

Я работаю с Cloudera 5.2 VM и pandas 0.18.0 Я хочу применить kmeans к своей DataFrame. Но у меня есть столбцы.pandas kmeans Как работать с категориальными атрибутами

Мой dataframe является

adClicksPerTime.head(n=5) 
Out[50]: 
      timestamp adCategory userId totalAdClicks 
0 2016-05-26 15:00:00 automotive  355    1 
1 2016-05-26 15:00:00  clothing 1027    1 
2 2016-05-26 15:00:00 computers 1821    1 
3 2016-05-26 15:00:00 computers 2139    1 
4 2016-05-26 15:00:00 electronics  253    1 

for col in adClicksPerTime: 
    print(col) 
    print(type(adClicksPerTime[col][1])) 


timestamp 
<class 'pandas.tslib.Timestamp'> 
adCategory 
<class 'str'> 
userId 
<class 'numpy.int64'> 
totalAdClicks 
<class 'numpy.int64'> 

Когда я исполняю kmeans я получаю ошибку

ValueError: could not convert string to float: 'automotive' 

Я попытался преобразовать свою строку в категорический тип и после того, как присвоить числовые коды

adClicksPerTime.adCategory = pd.Categorical.from_array(adClicksPerTime.adCategory)  

adClicksPerTime.head(n=5) 
Out[54]: 
      timestamp adCategory userId totalAdClicks 
0 2016-05-26 15:00:00 automotive  355    1 
1 2016-05-26 15:00:00  clothing 1027    1 
2 2016-05-26 15:00:00 computers 1821    1 
3 2016-05-26 15:00:00 computers 2139    1 
4 2016-05-26 15:00:00 electronics  253    1 

for col in adClicksPerTime: 
    print(col) 
    print(type(adClicksPerTime[col][1])) 


timestamp 
<class 'pandas.tslib.Timestamp'> 
adCategory 
<class 'str'> 
userId 
<class 'numpy.int64'> 
totalAdClicks 
<class 'numpy.int64'> 

Как применить kmeans к этому полю str?

+0

k-средство предназначено только для ** непрерывных ** переменных. Не используйте его для такого рода данных! –

ответ

1

Получить манекены изменят категории на манекены.

dummies = pd.get_dummies(adClicksPerTime[adCategory]) 
del dummies['automotive'] 
print dummies.columns 

Затем слить эту DataFrame с adClicksPerTime dataFrame, наконец применить Kmeans.

adClicksPerTime.info() предоставит вам dtypes.