Я пытаюсь выполнить сокращение с помощью графического процессора, то есть найти максимальное значение из всех элементов массива. Есть учебник от Nvidia here, скажем, слайд 7 для простейшего методаУменьшение GPU для массива с миллиардными элементами
Единственная проблема, с которой я столкнулся, это мой массив огромный! он может достигать 4 миллиардов элементов. Из примера кода в слайде 7 необходимо копировать back-and-forth между блочной общей памятью и глобальной памятью, а использование глобальной памяти для хранения всех элементов в моем нынешнем понимании невозможно избежать. Это хранилище превышает 2 ГБ памяти графической карты.
Есть ли способ сделать это сокращение с помощью таких огромных массивов или это текущие пределы графического оборудования?
PS: В будущем расширенной версии, я также планирую с гораздо более 4 миллиардов элементов
Почему вы не можете просто выполнить сокращение на кусках входных данных, которые поместили бы там память GPU, а затем уменьшите частичные результаты, чтобы найти истинный максимум? – talonmies
Теперь я чувствую себя глупо! возможно, должен закрыть этот вопрос. Спасибо за ваши подсказки! –