2015-12-01 5 views
0

Я использую prosody.lab, который использует HTK для создания языковой модели. Я пытаюсь тренировать эту новую модель, но я получаю следующее сообщение об ошибке HTKИспользование Prosody.lab и получение HTK ERROR [+1452] про слово в словаре не работает

ERROR [+1452] ReadDictProns: word HAO' out of order in dict dictionary.dict 

Ниже, как мой словарь упорядоченного

EH EH0 
ENSKA UH0 S K AH0 
É'THO T OW0 
HAO' HH AW0 OW0 Q 
HENH HH AH0 
KAHNAWAKE G AH0 N AH0 G EY0 
KAHYÁ:TON' G AH0 Y AH0 D UH0 Q 

Так делают некоторые исследования я наткнулся на website, что говорит эта ошибка получается, потому что:

Unix sort doesn't seem to match the sort HTK is looking for. Python's sort function seems to work. Numbers are sorted with '.' before 0, shorter before longer (1 < 1.0 < 10 < 100). 

Я предполагаю, что сортировка в настоящее время влияет на то, у меня есть специальные символы в моем словаре. Принимая направление с сайта, я помещал эти слова в список и сортировал его с помощью функции python sort для сортировки этих слов.

unsorted_list = ["EH", "ENSKA", "É'THO", "HAO'", "HENH", "KAHNAWAKE", "KAHYÁ:TON'"] 
sorted(unsorted_list) 

Но приведенный выше код создает список в том же порядке, что и мой словарь.

Итак, я попытался положить мой словарь в другой файл (unsorted_dict.txt) и сортируют, что с помощью команды UNIX sort:

$sort unsorted_dict.txt 

Но это также производит тот же порядок и мой словарь.

EH 
ENSKA 
É'THO 
HAO' 
HENH 
KAHNAWAKE 
KAHYÁ:TON' 

Я также попытался переключения HAO' и HENH в моем файле словаря дает следующий порядок:

EH 
ENSKA 
É'THO 
HENH 
HAO' 
KAHNAWAKE 
KAHYÁ:TON' 

Но этот порядок дает следующее сообщение об ошибке:

ERROR [+1452] ReadDictProns: word HENH out of order in dict dictionary.dict 

ответ

0

Очень вероятно, порядок сортировки, который HTK ожидает, является довольно наивным и основан на bytesequence, используемом для персонажей. В этом случае É придет после всех персонажей без акцента. Так что этот порядок был бы прав:

EH 
ENSKA 
HENH 
HAO' 
KAHNAWAKE 
KAHYÁ:TON' 
É'THO 

См http://www.tamasoft.co.jp/en/general-info/unicode.html для символов, отсортированных по bytesequence.