У меня есть аудиофайл человеческой речи. Длина аудио составляет около 1 минуты. Я хочу найти временную метку слова или фразы, произнесенные в аудио.Найти временную метку слова в аудио
Есть ли существующая библиотека, которая может выполнить задачу?
У меня есть аудиофайл человеческой речи. Длина аудио составляет около 1 минуты. Я хочу найти временную метку слова или фразы, произнесенные в аудио.Найти временную метку слова в аудио
Есть ли существующая библиотека, которая может выполнить задачу?
Существует, по крайней мере, два подхода к решению этой проблемы: распознавание речи и машинное обучение. Что более подходит, зависит от ваших обстоятельств.
С распознаванием речи вы можете запускать звук через установленный распознаватель речи и текста и оценивать временную метку слова на основании его расстояния от начала результирующей строки. С машинным обучением вы должны создать модель для звука, созданного словом или фразой, из учебных данных, затем нарезать тестовый звук на подходящую длину и запускать каждый против модели, чтобы оценить вероятность того, что это слово, которое вы ищете.
Метод машинного обучения, вероятно, будет более точным по отношению к отметке времени, но, конечно же, для создания модели в первую очередь требуется множество данных обучения.