Я хотел бы спросить о влиянии записи на глобальную память в CUDA. Известно, что чтение глобальной памяти часто оказывает большое влияние на производительность (объединение, кэширование, конфликты в банках), так как для ожидания входящей памяти может потребоваться довольно много циклов, что может блокировать выполнение в одно мгновение.Запись в глобальную память в CUDA
Однако как насчет памяти для записи в CUDA? Имеет ли он какой-либо тип записи в памяти? Является ли общая стоимость простой суммой всех записей в ядре?
Любые связанные ссылки и комментарии будут оценены.
Это именно тот вопрос, который было бы интересно изучить с помощью экспериментальной программы. Вы можете написать базовую программу OpenCL или CUDA, которая выполняет много миллионов чтений и записей в разных шаблонах. Проведите тесты снова и снова в цикле и посмотрите, что вы получаете в среднем. Вероятно, это хороший способ изучить загрузочные части каждого API. – James
Спасибо Джеймсу за комментарий! – Zk1001