2013-03-13 2 views
1

Этот вопрос является частью # 2 моего previous oneВыбор с тестированием членства из pandas.DataFrame которых клетки, содержащие массивы

Например, я DF так:

df = pd.DataFrame({ 
    'A': [[e for e in xrange(x+1, x+4)] for x in xrange(0, 15, 3)], 
    'B': [[e*10 for e in xrange(x+1, x+4)] for x in xrange(0, 15, 3)], 
    'C': [[e*100 for e in xrange(x+1, x+4)] for x in xrange(0, 15, 3)] 
}) 

       A    B     C 
0  [1, 2, 3]  [10, 20, 30]  [100, 200, 300] 
1  [4, 5, 6]  [40, 50, 60]  [400, 500, 600] 
2  [7, 8, 9]  [70, 80, 90]  [700, 800, 900] 
3 [10, 11, 12] [100, 110, 120] [1000, 1100, 1200] 
4 [13, 14, 15] [130, 140, 150] [1300, 1400, 1500] 

И мне нужно, чтобы получить строку, где 'A' содержит 10.
Теперь Im использованием:

f = lambda x: 10 in x 
mask = df['A'].apply(f) 
df[mask] 

Мои вопросы:

  • Это метод OK для извлечения при тестировании членства? Есть ли лучше?
  • Вкладывает ли списки (и наборы) в ячейки DF нормально?

ответ

1

Вам намного лучше построить многоиндексированный фрейм. Это гораздо быстрее , поскольку они являются носителями типа для исходных данных (подсказка: не df.dtypes на раме, они будут объектом)

In [3]: A = pd.DataFrame([[e for e in xrange(x+1, x+4)] for x in xrange(0, 15, 3)]) 

In [4]: B = pd.DataFrame([[e*10 for e in xrange(x+1, x+4)] for x in xrange(0, 15, 3)]) 

In [5]: C = pd.DataFrame([[e*100 for e in xrange(x+1, x+4)] for x in xrange(0, 15, 3)]) 

# this creates a 2-level hierarchy 
In [9]: df = pd.concat([A,B,C],keys=['A','B','C'],axis=1) 

Out[8]: 
    A   B    C    
    0 1 2 0 1 2  0  1  2 
0 1 2 3 10 20 30 100 200 300 
1 4 5 6 40 50 60 400 500 600 
2 7 8 9 70 80 90 700 800 900 
3 10 11 12 100 110 120 1000 1100 1200 
4 13 14 15 130 140 150 1300 1400 1500 

# select out A 
In [14]: df['A'] 
Out[14]: 
    0 1 2 
0 1 2 3 
1 4 5 6 
2 7 8 9 
3 10 11 12 
4 13 14 15 

# this is a boolean array 
In [11]: df['A']>10 
Out[11]: 
     0  1  2 
0 False False False 
1 False False False 
2 False False False 
3 False True True 
4 True True True 

выбора конкретных срезов

In [26]: df.ix[:,('A',1)] 
Out[26]: 
0  2 
1  5 
2  8 
3 11 
4 14 
Name: (A, 1), dtype: int64