avx

3зной

1ответ

Странная ошибка в петле векторизации AVX

Когда я пытаюсь раскатать простейший цикл с AVX, я получаю ошибки во время выполнения - ошибка Сегментация: const int sz = 9; float *src = (float *)_mm_malloc(sz*sizeof(float), 16); float *d

0зной

1ответ

AVX и Bubble Сортировка

Мне нужно разработать алгоритм сортировки пузырьков с инструкциями AVX с номерами с одной точностью. Может ли кто-нибудь помочь мне найти наилучшую реализацию? Я сделал версию пузырьковой сортировки д

0зной

1ответ

G ++ Asm inline: register clobbering

Использует ли gcc-компилятор push/pop для резервного копирования регистров, если я ничего не пишу в списке clobber? Что происходит для регистров ввода и вывода? Я сделаю короткую встроенную строку asm

0зной

1ответ

Почему SSE и AVX имеют такую же эффективность?

Я использую vs2012 и хочу проверить эффективность SSE и AVX. Код для SSE и AVX почти такой же, кроме SSE использует _m128, а AVX использует _m256. Я ожидал, что код AVX будет в два раза быстрее, чем к

0зной

1ответ

C++ конвертировать SSE-код в AVX

С помощью YOU я использовал SSE в своем коде (пример ниже) со значительным повышением производительности, и мне было интересно, можно ли улучшить этот прирост, используя 256-битные регистры AVX. int r

11зной

1ответ

Имеет ли в ядре Linux собственный контекст SSE/AVX?

Имеет ли в ядре Linux собственный контекст SSE/AVX? Я имею в виду, с точки зрения модуля ядра, могу ли я использовать инструкции SSE/AVX, не беспокоясь о приложениях пользовательского пространства, ко

4зной

2ответ

Штраф за переключение с SSE на AVX?

Я знаю о существующем штрафе за переход из инструкций AVX в инструкции SSE без предварительного обнуления верхних половин всех регистров ymm, но в моем конкретном случае на моей машине (i7-3939K 3,2 Г

3зной

1ответ

WebSocket данные разоблачения/мульти XOR байт

WebSocket спецификация определяет ВыяВление данных как j = i MOD 4 transformed-octet-i = original-octet-i XOR masking-key-octet-j , где маска имеет длину 4 байта и разоблачение должно быть прим

0зной

1ответ

32B куски, смежные и несмежные обращения к памяти

Я написал матрицу-матрицу (32-битные поплавки) функцию умножения в C++, используя встроенные средства для больших матриц (8192x8192), минимальный размер данных 32B для каждой операции чтения и записи.