Я пытаюсь изменить фрагмент кода, который использует SSE (128 бит) вызовы для использования 256-битной функции FMA на Bulldozer Opteron. Кажется, я не могу найти для них настоящие призывы. Некоторые в
fma(a,b,c) эквивалентен a*b+c за исключением того, что он не округляет промежуточный результат. Не могли бы вы привести несколько примеров алгоритмов, которые нетривиально выиграют от избежания этого
Z3 возвращает удовлетворительную модель для этого теста: http://rise4fun.com/Z3/Bnv5m Однако запрос по существу утверждающая, что a*b+0 эквивалентно a*b с помощью инструкции FMA, который я считаю, спр