У меня есть набор данных около 50 миллионов записей с примерно 30 переменными (столбцами). Мне нужно ранжировать набор данных для каждой переменной.Как оценивать несколько переменных в большом наборе данных?
Оценка Proc не работает, так как для этого большого набора данных требуется много памяти.
Чтобы присвоить ранг вручную, мне нужно отсортировать набор данных в соответствующем столбце переменной и затем присвоить ранг с помощью формулы. Но проблема в том, что мы должны сортировать набор данных 30 раз по 30 переменным, что займет очень много времени и не выполнимо.
Какие альтернативы мы можем использовать в этом случае?
You может дополнительно повысить производительность за счет объединения первых двух шагов в% DO I в один PROC SORT data = fish (keep = seq & var) out = fish_ & i; и т. д. А также с помощью VIEW для шага данных для вычисления рангов и использования этого в качестве входа в последний PROC SORT. –