Я новичок в с помощью встроенных средств, но я хотел бы написать функцию, которая принимает вектор 4 двойников вычисляет a > 1e-5 ? std::sqrt(a) : 0.0 мой первый инстинкт должен был написать это следу
_mm_cvtepi16_epi32 (pmovsxwd) требует SSE4.1 Как мы можем подписаться расширить векторные элементы только с SSE3, или SSE2? Ответ на вопрос SSSE3 может быть интересным.
В файле исходного кода LLVM llvm/lib/Target/NVPTX/NVPTXIntrinsics.td определения для atom_add, atom_sub, atom_max, atom_min, atom_inc, atom_dec и т. Д. Типов памяти CUDA могут быть видел. Но я не смог