2008-09-27 5 views
45

Теперь я ищу структуру Java Text to Speech (TTS). Во время моих исследований я нашел несколько JSAPI1.0- (частично) -совместимых фреймворков, перечисленных на JSAPI Implementations page, а также пару фреймворков Java TTS, которые, как представляется, не следуют спецификации JSAPI (Mary, Say-It-Now). Я также отметил, что в настоящее время для JSAPI не существует ссылочной реализации.Java: обзор для текстовых движков

Краткие тесты, которые я сделал для FreeTTS (первый из них представлен на странице JSAPI impls), показывают, что далеко не просто читать простые и очевидные слова (примеры: ABC, доска). В настоящее время проводятся другие тесты.

И здесь идет вопрос (6, на самом деле):

  1. Какой из рамок TTS Java на основе вы использовали?
  2. Какие, по вашему мнению, способны читать самую большую базу слов?
  3. Что относительно качества их голоса?
  4. Как насчет их производительности?
  5. Какие фреймворки, не связанные с Java, с привязками Java находятся на сцене?
  6. Какой из них вы бы порекомендовали?

Благодарим вас за ваши комментарии и предложения.

+0

См. [Этот JSAPI FAQ и список реализаций] (http://www.oracle.com/technetwork/java/jsapifaq-135248.html) на сайте Oracle. – 2017-08-09 01:00:02

ответ

6

Я использовал Мэри раньше, и меня очень впечатлило качество голосов. К сожалению, я не использовал ни одного из других.

+3

Мэри не прост в использовании. Он плохо документирован и процесс установки является ужасным (пробелы в именах каталогов, которые препятствуют обнаружению файлов классов в системах на базе Unix). – 2009-12-28 21:28:18

+2

http://mary.dfki.de/ – 2011-02-17 22:38:50

+0

Я пробовал разные решения TTS и, в конечном итоге, придерживался MaryTTS. Он работает очень хорошо, и настройка с Maven не так уж трудна. Можете порекомендовать его. – jAC 2017-12-03 20:09:31

1

Большое спасибо всем, фокус находится в источнике FreeTTS. Вкратце: если он запущен как java -jar freetts.jar some-more-args-here, он произносит меньшее количество слов, чем при выполнении в виде bin/Server.jar и bin/Client.jar.

4

Я использовал AT&T Natural Voices, который обеспечивает перехваты JSAPI и MS SAPI. Он обеспечивает отличные качественные голоса, хороший «общий» словарь речи, многие элементы управления над произношением и несколько языков. Это немного дорого, но работает очень хорошо.

Я использовал его для чтения важной сенсорной телеметрии для водителей в приложении мобильного датчика. У нас не было жалоб на качество голоса. Он имел около 75% готовой точности с научными терминами и намного выше (может быть, 90% +) с нормальным диалогом. Мы получили точность до 99%, используя разметки (большинство ошибок были на научных терминах с необычными комбинациями фонем).

Это было немного тяжело на процессоре (мы работали на эквивалентной машине Pentium-III, и это нажимало 50% -75% пикового процессора). В нем используется собственный речевой движок (совместимый с Windows, Linux и Mac) с интерфейсом Java.

Там огромное разнообразие голосов и языков ...

1

Я использовал FreeTTS, но имел большую проблему получить голоса MBROLA бежать на моем MacBookPro. Я получал голоса MBrola для работы в Windows (больно) и Linux. Мне не повезло загружать любые другие голосовые пакеты на FreeTTS, что является позором, потому что поставленные голоса ужасны IMO. Вне этого у меня был небольшой успех с Cloudgarden, но это работает только на Windows AFAIK. Мне было бы интересно услышать другие успехи/неудачи в голосовых машинах, так как этот тип работы особенно сложный. Я тоже немного разбираюсь в Sphinx4.Я просто спустил JVXML (который, похоже, был основан на Sphinx4) прошлой ночью, но не смог заставить его работать по какой-то странной причине.

1

Я внесла свой вклад в развитие мэри. Я чувствую, что у него есть потенциал, если кто-то умнее меня отделяет голоса HMM от ядра (эти голоса не нужны большие наборы данных и звук в порядке). Я также пытаюсь сделать систему событий для freetts для отправки событий, когда он произносит слово. У меня был успех, но теперь он сломан в Linux. (вероятно, из-за ошибки таймера).

3

На самом деле, есть не большой выбор:

  • фестиваль, самый старый. Написано в C++, но имеет привязки к Java.
  • озвучки, qucik и простой, используемый Google Translate
  • MBROLA

Pure Java:

  • FreeTTS, который код был перенесен из фестиваля, а затем был открытым кодом и развитие было остановился.
  • MaryTTS - более мощный и готовый вид производства.

Также есть другие проприетарные программы, такие как:

  • Acapella
  • Nuance Vocalizer

Если ваше программное обеспечение для Windows только, вы можете использовать Microsoft Speech API.

0

Я нашел мало удобный с MarryTTS Он имеет многоязычный и понятный голос для понимания.

T конвертировать речь в текст, лучший выбор sphinx4-5prealpha. Я даю один большой палец, потому что он имеет настраиваемый, гибкий и изменяемый распознаватель и грамматик.

 Смежные вопросы

  • Нет связанных вопросов^_^