У меня была программа CUDA, в которой регистры ядра ограничивались Максимальное теоретическое достигнутое занятие до% 50. Поэтому я решил использовать разделяемую память вместо регистров для тех перем
У меня есть следующие CUDA ядро, которое кажется очень «жестким» для оптимизации: __global__ void DataLayoutTransformKernel(cuDoubleComplex* d_origx, cuDoubleComplex* d_origx_remap, int n, int filter_
Я студент-градиент, и в нашей лаборатории у нас есть Dell Precision T3500 (http://www.dell.com/us/business/p/precision-t3500/pd). Мы используем его прежде всего для исследований обработки изображений,