2016-11-25 1 views
2

У меня есть dataframe с колонками от и до. Оба являются кодами стран, и они показывают начальную страну и страну назначения.процентное число на группу и ось с pyspark

+----+---+ 
|from| to| 
+----+---+ 
| TR| tr| 
| TR| tr| 
| TR| tr| 
| TR| gr| 
| ES| tr| 
| GR| tr| 
| CZ| it| 
| LU| it| 
| AR| it| 
| DE| it| 
| IT| it| 
| IT| it| 
| US| it| 
| GR| fr| 

Есть ли способ, чтобы получить dataframe, который показывает процент каждой страны назначения в страну происхождения, с колонкой весь код страны назначения?

Процент должен быть вне общего назначения одной страной происхождения (рядом).

например.

+----+---+----+---+----+ 
|from| tr| it| fr| gr| 
+----+---+----+---+----+ 
| TR|0.6|0.12|0.2|0.09| 
| IT|0.3| 0.3|0.3| 0.8| 
| US|0.1|0.34|0.3| 0.2| 

ответ

2

pivot Вы можете с count и корректировать результат. Первые несколько импорта:

from pyspark.sql.functions import col, lit, coalesce 
from itertools import chain 

уровни поиск:

levels = [x for x in chain(*df.select("to").distinct().collect())] 

pivot: сосчитать

pivoted = df.groupBy("from").pivot("to", levels).count() 

compute строки выражение:

row_count = sum(coalesce(col(x), lit(0)) for x in levels) 

создать список регулировки ред колонки:

adjusted = [(col(c)/row_count).alias(c) for c in levels] 

и select:

pivoted.select(col("from"), *adjusted)