ptx

    6зной

    1ответ

    Рассмотрите эти три тривиальных минимальных ядра. Их использование в регистре намного больше выше, чем я ожидаю. Зачем? А: __global__ void Kernel_A() { //empty } соответствующие PTX: ptxas info :

    0зной

    1ответ

    Я хочу использовать SIMD видео инструкции (vadd4, vmax4 и т.д.) раздел 8.7.13 в http://docs.nvidia.com/cuda/pdf/ptx_isa_3.1.pdf Я попытался следующие в моем коде asm("vadd4.u32.u32.u32 %0, %1, %2, %3;

    2зной

    1ответ

    Я хотел бы начать изучение PTX, с чего мне начать? Есть ли хорошая книга/ресурс для этого? Я уже знаю, x86/x64 ASM (более или менее), если это может помочь

    0зной

    1ответ

    Я не понимаю, как команда мов работы в PTX .. ​​ mov.type d, a это перемещает в d, если это регистр или непосредственное значение. Кстати, это может переместиться в d адрес a, если a - переменная в

    0зной

    1ответ

    Я изучаю PTX, и я не понимаю разницы между .param и .local пробелами. .local являются переменными видимыми нитями и находятся на их стек (который, кстати, поток памяти) .param переменные, используемый

    1зной

    1ответ

    Этот вопрос похож на cuModuleLoadDataEx options, но я хотел бы снова поднять тему и, кроме того, предоставить дополнительную информацию. При загрузке строки PTX с драйвером NV через cuModuleLoadDataEx

    4зной

    1ответ

    Два факта: CUDA 5.0 позволяет скомпилировать код CUDA в разных файлах объектов для последующего связывания. Архитектура CUDA 2.x больше не встраивает функции автоматически. Как обычно в C/C++, я реали