Я вижу, что CUBLAS может быть эффективным пакетом алгоритмов для одного большого умножения или добавления матриц и т. Д. Но в общей настройке большинство вычислений зависят. Итак, следующий шаг зависит от результата предыдущего шага.cublas: та же матрица ввода и вывода для лучшей производительности?
Это вызывает одну проблему, поскольку выходная матрица должна отличаться от входной матрицы в процедуре CUBLAS (поскольку входные матрицы являются константами), много времени тратится на пространство malloc и копирует данные с устройства на устройство для этих временных матриц.
Так можно делать такие вещи, как multiply (A, A, B), где первый аргумент - это выходная матрица, а вторая/третья - входные матрицы, чтобы избежать дополнительного времени манипуляции с памятью? Или есть лучшее обходное решение?
Большое спасибо!