Я пытаюсь обучить модель lstm для распознавания речи, но не знаю, какие данные обучения и целевые данные использовать. Я использую LibriSpeech dataset и содержит как аудиофайлы, так и их транскрипты. На этом этапе я знаю, что целевые данные будут векторизовать текст транскрипта. Что касается данных обучения, я думал об использовании частот и времени из каждого аудиофайла (или функций MFCC). Если это правильный способ приблизиться к проблеме, данные обучения/аудио будут представлять собой несколько массивов, как бы я ввел эти массивы в мою модель lstm? Должен ли я их векторизовать?Как обучить lstm для распознавания речи
Спасибо!