2016-08-31 15 views
0

В CMU Sphinx (Sphinx-4) для техники адаптации динамик, я использую следующий фрагмент кодаРешают размер кластера для адаптации акустических систем в Sphinx-4

Stats stats = recognizer.createStats(nrOfClusters); 
recognizer.startRecognition(stream); 
while ((result = recognizer.getResult()) != null) { 
    stats.collect(result); 
} 
recognizer.stopRecognition(); 

// Transform represents the speech profile 
Transform transform = stats.createTransform(); 
recognizer.setTransform(transform); 

, что должно быть nrOfClusters (число кластеров) Значение параметра получить хорошие результаты? Как мы можем использовать этот фрагмент для адаптации к нескольким динамикам в аудио?

ответ

0

Какое должно быть значение параметра nrOfClusters (количество кластеров) для получения хороших результатов?

Количество кластеров зависит от количества данных для адаптации. Чем больше данных у вас есть, тем больше кластеров вы можете использовать. Например, если у вас есть 30 секунд речи, достаточно 1 кластера. Если у вас 10 минут речи, вы можете использовать до 32 кластеров.

Как мы можем использовать этот фрагмент для адаптации к нескольким динамикам в аудио?

Если вы знаете времена для каждого динамика, вы можете выполнить адаптацию для каждого динамика отдельно. Нет никакого смысла создавать совместное преобразование для разных динамиков.

+0

Николай спасибо за ответ, у меня есть еще несколько вопросов относительно Сфинкса-4. Где я могу узнать больше об адаптации динамиков с реализацией трансформации MLLR в Sphinx-4? Какие еще существуют методы повышения точности распознавания речи в Sphinx-4? Можем ли мы обновить существующую языковую модель Sphinx-4 во время выполнения, чтобы получить больше точности? Также Sphinx-4 показывает скорость 3xRT, поэтому как мы можем улучшить ее, чтобы ускорить время в реальном времени, есть ли параллельная реализация Sphinx-4? – rishi007bansod