Я ищу использование Google Cloud Speech для конвертирования записанных аудиофайлов с длинными формами, и мне нужно знать время начала каждой фразы в аудиофайле. Есть ли способ сделать это с помощью Google Cloud Speech? Я сейчас работаю с transcribe_async.py
. Спасибо.Google Cloud Speech: время начала слова
1
A
ответ
1
Это невозможно с помощью Google Cloud Speech. Если эта информация важна для вас, вам может потребоваться взглянуть на другие системы ASR. Я знаю, что в автономном режиме, не размещенные системы ASR, такие как Kaldi и CMU Sphinx, вы получите эту информацию. Я не знаю, могут ли или в каких организациях ASR предоставлять эту информацию.
0
Вы можете получить (aproximated) время начала и окончания (с начала звуковой дорожки) для каждого слова, установив True значение enableWordTimeOffsets: https://cloud.google.com/speech/docs/async-time-offsets.
Опасайтесь, что время начала первого слова транскрипта всегда равно 0 и что, насколько мне известно, каждое время начала слова соответствует времени окончания предыдущего слова (также если есть паузы).
Спасибо за помощь! – Hephaestus