2011-12-09 1 views
2

Как создать маску с использованием встроенных функций SSE, которая указывает, являются ли знаки двух упакованных поплавков (__m128's) одинаковыми, например, при сравнении a и b, где a является [1.0 -1.0 0.0 2.0 ], а b - [1.0 1.0 1.0 1.0], желаемая маска, которую мы получили, будет [true false true true].Сравните бит знака в SSE Intrinsics

ответ

5

Вот одно решение:

const __m128i MASK = _mm_set1_epi32(0xffffffff); 

__m128 a = _mm_setr_ps(1,-1,0,2); 
__m128 b = _mm_setr_ps(1,1,1,1); 

__m128 f = _mm_xor_ps(a,b); 
__m128i i = _mm_castps_si128(f); 

i = _mm_srai_epi32(i,31); 
i = _mm_xor_si128(i,MASK); 

f = _mm_castsi128_ps(i); 

// i = (0xffffffff, 0, 0xffffffff, 0xffffffff) 
// f = (0xffffffff, 0, 0xffffffff, 0xffffffff) 

В этом фрагменте, как i и f будет иметь тот же битовую маску. Я предполагаю, что вы хотите его в __m128, поэтому я добавил f = _mm_castsi128_ps(i);, чтобы преобразовать его с __m128i.

Обратите внимание, что этот код чувствителен к знаку нуля. Так что 0.0 и -0.0 повлияют на результаты.


Пояснения:

То, как работает код выглядит следующим образом:

f = _mm_xor_ps(a,b);  // xor the sign bits (well all the bits actually) 

i = _mm_castps_si128(f); // Convert it to an integer. There's no instruction here. 

i = _mm_srai_epi32(i,31); // Arithmetic shift that sign bit into all the bits. 

i = _mm_xor_si128(i,MASK); // Invert all the bits 

f = _mm_castsi128_ps(i); // Convert back. Again, there's no instruction here. 
+0

@Mystical, Как бы вы сделали функцию Sign на float, используя это? – Royi

+0

@Royi Это лучше, как отдельный вопрос. – Mysticial

2

Посмотрите на _mm_movemask_ps инструкции, которая извлекает наиболее значимый бит (т.е. знаковый бит) от 4 поплавков. См. http://msdn.microsoft.com/en-us/library/4490ys29.aspx

Например, если у вас [1.0 -1.0 0.0 2.0], то movemask_ps вернет 4 или 0100 в двоичном формате. Итак, если вы получите movemask_ps для каждого вектора и сравните результаты (возможно, побитовое NOT XOR), тогда это будет указывать, совпадают ли все знаки.

a = [1.0 -1.0 0.0 2.0] 
b = [1.0 1.0 1.0 1.0] 
movemask_ps a = 4 
movemask_ps b = 0 
NOT (a XOR b) = 0xB, or binary 1011 

Следовательно, знаки те же, что и во втором векторном элементе.

 Смежные вопросы

  • Нет связанных вопросов^_^