avx

    3зной

    1ответ

    Когда я пытаюсь раскатать простейший цикл с AVX, я получаю ошибки во время выполнения - ошибка Сегментация: const int sz = 9; float *src = (float *)_mm_malloc(sz*sizeof(float), 16); float *d

    0зной

    1ответ

    Мне нужно разработать алгоритм сортировки пузырьков с инструкциями AVX с номерами с одной точностью. Может ли кто-нибудь помочь мне найти наилучшую реализацию? Я сделал версию пузырьковой сортировки д

    0зной

    1ответ

    Использует ли gcc-компилятор push/pop для резервного копирования регистров, если я ничего не пишу в списке clobber? Что происходит для регистров ввода и вывода? Я сделаю короткую встроенную строку asm

    0зной

    1ответ

    Я использую vs2012 и хочу проверить эффективность SSE и AVX. Код для SSE и AVX почти такой же, кроме SSE использует _m128, а AVX использует _m256. Я ожидал, что код AVX будет в два раза быстрее, чем к

    0зной

    1ответ

    С помощью YOU я использовал SSE в своем коде (пример ниже) со значительным повышением производительности, и мне было интересно, можно ли улучшить этот прирост, используя 256-битные регистры AVX. int r

    11зной

    1ответ

    Имеет ли в ядре Linux собственный контекст SSE/AVX? Я имею в виду, с точки зрения модуля ядра, могу ли я использовать инструкции SSE/AVX, не беспокоясь о приложениях пользовательского пространства, ко

    4зной

    2ответ

    Я знаю о существующем штрафе за переход из инструкций AVX в инструкции SSE без предварительного обнуления верхних половин всех регистров ymm, но в моем конкретном случае на моей машине (i7-3939K 3,2 Г

    3зной

    1ответ

    WebSocket спецификация определяет ВыяВление данных как j = i MOD 4 transformed-octet-i = original-octet-i XOR masking-key-octet-j , где маска имеет длину 4 байта и разоблачение должно быть прим

    0зной

    1ответ

    Я написал матрицу-матрицу (32-битные поплавки) функцию умножения в C++, используя встроенные средства для больших матриц (8192x8192), минимальный размер данных 32B для каждой операции чтения и записи.