Я пытаюсь увеличить производительность фрагмента кода, написанного на ARM Assembler, используя инструкции Neon.ARM Neon Assembler - странный вопрос о трубопроводе
Для тестирования и расчета я использую этот калькулятор: http://pulsar.webshaker.net/ccc/sample-706454b3
Я заметил, что в строке «n.34-0 1c n0» вдруг блок Неон, кажется, придется ждать 10 циклов (?). Что может быть причиной этого или это просто ошибка в калькуляторе?
Также мне нужна общая информация о том, как улучшить производительность в ARM/Neon Assembler.
Цель - ARM Cortex-A9. Для компиляции я использую новейший андроид-ndk с встроенным ассемблером. Спасибо.
Эти опасности всего 1 ~ 2 цикла, если кэш попал. В этом случае это нечто другое. –