Я ищу для получения точных временных меток для каждого слова в аудиофайле. У меня также есть исходный текст для аудиофайла, который можно использовать в качестве источника перекрестной ссылки. Это похоже на «интеллектуальный звук», который, как я считаю, содержит только входной звук, тогда как здесь у меня есть как аудио, так и текст.Отслеживание звука с любого языка с учетом источника звука и точной транскрипции
В идеале я хотел бы сделать это с использованием программного обеспечения с открытым исходным кодом и хотел бы принять большинство языков в качестве входных данных (например, английский, французский, немецкий, испанский и в идеале русский и мандаринский).
Я бы даже принял решение, которое могло соответствовать только штампам времени разных слов (например, если транскрипция была не совсем точной). Тогда перекрестная ссылка на выходной текст с оригиналом, чтобы помочь перестроить вещи, будет проще.