1

Я ищу использование Google Cloud Speech для конвертирования записанных аудиофайлов с длинными формами, и мне нужно знать время начала каждой фразы в аудиофайле. Есть ли способ сделать это с помощью Google Cloud Speech? Я сейчас работаю с transcribe_async.py. Спасибо.Google Cloud Speech: время начала слова

ответ

1

Это невозможно с помощью Google Cloud Speech. Если эта информация важна для вас, вам может потребоваться взглянуть на другие системы ASR. Я знаю, что в автономном режиме, не размещенные системы ASR, такие как Kaldi и CMU Sphinx, вы получите эту информацию. Я не знаю, могут ли или в каких организациях ASR предоставлять эту информацию.

+1

Спасибо за помощь! – Hephaestus

0

Вы можете получить (aproximated) время начала и окончания (с начала звуковой дорожки) для каждого слова, установив True значение enableWordTimeOffsets: https://cloud.google.com/speech/docs/async-time-offsets.

Опасайтесь, что время начала первого слова транскрипта всегда равно 0 и что, насколько мне известно, каждое время начала слова соответствует времени окончания предыдущего слова (также если есть паузы).