У меня есть два фрейма данных, которые я загрузил из двух файлов csv. Примеры:PySpark: Как сравнить два dataframes
old
+--------+---------+----------+
|HOTEL ID|GB |US |
+--------+---------+----------+
| 80341| 0.78| 0.7|
| 255836| 0.6| 0.6|
| 245281| 0.78| 0.99|
| 229166| 0.0| 0.7|
+--------+---------+----------+
new
+--------+---------+----------+
|HOTEL ID|GB |US |
+--------+---------+----------+
| 80341| 1 | 0.7|
| 255836| 0.6| 1 |
| 245281| 0.78| 0.99|
| 333 | 0.0| 0.7|
+--------+---------+----------+
, и я хотел бы получить:
expected result
+--------+---------+----------+
|HOTEL ID|GB |US |
+--------+---------+----------+
| 80341| 1 | None|
| 255836| None| 1 |
| 333 | 0.0| 0.7|
+--------+---------+----------+
Я возился с методом Еогеаспа dataframe, но не в состоянии заставить его работать ... как искра новичок был бы признателен для любых подсказок.
Cheers!
Рафаэль
на самом деле можно получить последние | 333 | 0.0 | 0.7 | строка с помощью subtract(), но все еще не понятна в отношении ячейки по сравнению с ячейкой. – Rafael