Мне интересно узнать о библиотеке cuBLAS от NVIDIA. У кого-нибудь есть опыт? Например, если я пишу программу C с использованием BLAS, я смогу заменить вызовы BLAS на вызовы cuBLAS? Или даже лучше реал
Я попытался выделить 17338896 элементов чисел с плавающей запятой следующим образом (что составляет около 70 Мб): state = cublasAlloc(theSim->Ndim*theSim->Ndim,
sizeof(*(theSim->K0)),
Я заметил, что я могу использовать блоки памяти для матриц, выделенных с помощью функции cudamalloc() или cublasalloc() для вызова функций cublas. Скорость передачи матрицы и вычисление медленнее для