Я использую устройство TESLA T10, и у него есть 2 устройства cuda, а максимальное количество потоков в блоке - 512, а максимальные потоки по каждому измерению - 512 512 614 и максимальный размер сетки (65535 , 65535,1) и имеет 30 мультипроцессоров на каждом устройстве cuda.Максимальное количество потоков на gpu
Теперь я хочу знать, сколько потоков я могу запустить в parallel.i читать предыдущие решения, но ни один из них не очистил мои сомнения. от предыдущего чтения = (30) * 512 нитей я могу выполняться параллельно (maxNoOfMultiprocessor * maxThreadBlockSize)
но когда я запустил 32 блоков 512 нитей до сих пор она работает как это возможно ??? я не понимающих эти максимальные потоки в каждом измерении, а также максимальный размер сетки часть пожалуйста, объясняющие с примером ....... заранее спасибо
Возможно, последние два блока, которые пересекают границу, идут для зоны глобальной синхронизации, поэтому первые 30 блоков завершаются первым, а последние два находятся в другой очереди выполнения. Может быть. –
, что означает, что мы можем запустить любой из блоков нитей с максимальным количеством нитей в каждом блоке 512, имея в виду, что первый запуск 30 * 512 будет выполнен, а затем 30 * 512 и т. Д. – user2182259
Но вы не можете быть уверены в том, какой большой блок выполняется ранее. –