2017-02-09 5 views
0

У меня есть панды Dataframe вроде так:В Python, как сделать корреляцию между несколькими столбцами более двух переменных?

id cat1 cat2 cat3 num1 num2 
1  0  WN  29  2003 98 
2  1  TX  12  755  76 
3  0  WY  11  845  32 
4  1  IL  19  935  46 

Я хочу, чтобы выяснить корреляцию между Cat1 и колонки CAT3, num1 и num2 или между cat1 и num1 и num2 или между CAT2 и cat1, CAT3, num1, num2

Когда я использую df.corr(), он дает корреляцию между всеми столбцами в фреймворке данных, но я хочу видеть корреляцию между этими выборочными столбцами, подробно описанными выше.

Как это сделать в Pandon pandas?

A Thousand заблаговременно за ваши ответы.

+1

'df [['Cat1', 'cat3']]. Corr()' и т. Д. – DyZ

ответ

2

Я попытался следующие, и она работала:

features1=list(['cat1','cat2','cat3']) 
features2=list(['Cat1', 'Cat2','num1','num2']) 
df[[features1]].corr() 
df[[features2]].corr() 

Хороший способ выбрать столбцы, основанные на необходимости, когда у вас есть очень большое количество переменных в наборе данных.