С GCC 5.3 следующий код compield с -O3 -fma float mul_add(float a, float b, float c) {
return a*b + c;
}
производит последующую сборку vfmadd132ss %xmm1, %xmm2, %xmm0
ret
I noticed GCC doi
Я пытаюсь понять, как можно максимизировать количество операций, которые я могу получить на своем CPU. Я делаю простую программу умножения матрицы, и у меня есть процессор Skylake. Я смотрел на страни
Когда я впервые получил процессор Haswell, я попытался реализовать FMA для определения набора Мандельброта. Основной алгоритм заключается в следующем: intn = 0;
for(int32_t i=0; i<maxiter; i++) {