Я ищу простую процедуру генерации FST (конечного преобразователя) из cmudict-0.7b или cmudict-0.7b.dict, который будет использоваться с фонетизауром.Как преобразовать cmudict-0.7b или cmudict-0.7b.dict в формат FST, чтобы использовать его с фонетизауром?
Я пробовал следующий набор команд (phonetisaurus Aligner, Google NGramLibrary и phonetisaurus arpa2wfst) и мог генерировать FST, но это не сработало. Я не знаю, где я совершил ошибку или пропустил любой шаг. Я думаю, что первая команда, то есть phonetisaurus-align, неверна.
phonetisaurus-align --input=cmudict.dict --ofile=cmudict/cmudict.corpus --seq1_del=false
ngramsymbols <cmudict/cmudict.corpus> cmudict/cmudict.syms
/usr/local/bin/farcompilestrings --symbols=cmudict/cmudict.syms --keep_symbols=1 cmudict/cmudict.corpus > cmudict/cmudict.far
ngramcount --order=8 cmudict/cmudict.far > cmudict/cmudict.cnts
ngrammake --v=2 --bins=3 --method=kneser_ney cmudict/cmudict.cnts > cmudict/cmudict.mod
ngramprint --ARPA cmudict/cmudict.mod > cmudict/cmudict.arpa
phonetisaurus-arpa2wfst-omega --lm=cmudict/cmudict.arpa > cmudict/cmudict.fst
Я попытался FST с phonetisaurus-G2P следующим образом:
phonetisaurus-g2p --model=cmudict/cmudict.fst --nbest=3 --input=HELLO --words
Но это ничего не вернуть .... Цените любую помощь по этому вопросу.
Это должен быть принятый ответ. Большое спасибо, Николай. –