Я хочу использовать API-интерфейсы Vtune Profiler для профилирования кода, запущенного на Xeon Phi (Linux, используя выполнение разгрузки), чтобы увидеть количество выполненных инструкций, количество
Если у меня есть следующие двойников в 512-широкий SIMD вектор, как в Xeon Phi регистре: m0 = |b4|a4|b3|a3|b2|a2|b1|a1|
можно ли сделать его в: m0_d = |a4|a4|a3|a3|a2|a2|a1|a1|
с использованием од
Предположим, что у меня есть следующие 4 вектора двойников в Xeon Phi регистрах: A-> |a8|a7|a6|a5|a4|a3|a2|a1|
B-> |b8|b7|b6|b5|b4|b3|b2|b1|
C-> |c8|c7|c6|c5|c4|c3|c2|c1|
D-> |d8|d7|d6|d5|d4|d3|d2|
Я имел в виду руководство Intel по набору инструкций Xeon Phi и не мог понять, как работают команды разброса/сбора. Предположим, если у меня есть следующий вектор двойников: A-> |b4|a4|b3|a3|b2|a2|b1|
Я работаю с system, который реализован в коде C++/OpenMP, и он использует структуры данных STL и Eigen повсюду. Алгоритмически код кажется отличным кандидатом на ускорение с новыми картами Intel MIC (
Я пытаюсь установить сопроцессор Xeon Phi. Конкретное поведение, вероятно, связано с задействованными инструментами - мой вопрос носит более общий характер. Когда я выполняю команду как root, я получа