2016-11-25 6 views
2

Я пытаюсь обучить модель lstm для распознавания речи, но не знаю, какие данные обучения и целевые данные использовать. Я использую LibriSpeech dataset и содержит как аудиофайлы, так и их транскрипты. На этом этапе я знаю, что целевые данные будут векторизовать текст транскрипта. Что касается данных обучения, я думал об использовании частот и времени из каждого аудиофайла (или функций MFCC). Если это правильный способ приблизиться к проблеме, данные обучения/аудио будут представлять собой несколько массивов, как бы я ввел эти массивы в мою модель lstm? Должен ли я их векторизовать?Как обучить lstm для распознавания речи

Спасибо!

ответ

8

Чтобы подготовить речевой набор данных для подачи в модель LSTM, вы можете увидеть этот пост - Building Speech Dataset for LSTM binary classification, а также сегмент Data Preparation.

В качестве хорошего примера вы можете увидеть этот пост - http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/. Этот пост рассказывает о как предсказать последовательность векторов в Keras, используя RNN - LSTM.

Я считаю, что вы найдете это сообщение (https://stats.stackexchange.com/questions/192014/how-to-implement-a-lstm-based-classifier-to-classify-speech-files-using-keras) тоже очень полезно.