Я попытался работать с giza ++ на окне (используя Cygwin-компилятор). Я использовал этот код:Плохой результат и оценка от Giza ++
// Пусть исходный язык является французским языком и языком является английским
plain2snt.out FrenchCorpus.f EnglishCorpus.e
mkcls -c30 -n20 -pFrenchCorpus.f -VFrenchCorpus.f.vcb.classes opt
mkcls -c30 -n20 -pEnglishCorpus.e -VEnglishCorpus.e.vcb.classes opt
snt2cooc.out FrenchCorpus.f.vcb EnglishCorpus.e.vcb FrenchCorpus.f_EnglishCorpus.e.snt >courpuscooc.cooc
GIZA++ -S FrenchCorpus.f.vcb -T EnglishCorpus.e.vcb -C FrenchCorpus.f_EnglishCorpus.e.snt -m1 100 -m2 30 -mh 30 -m3 30 -m4 30 -m5 30 -p1 o.95 -CoocurrenceFile courpuscooc.cooc -o dictionary
Но после получения выходных файлов из Гизы ++ и оценить выход, я заметил, что результаты были слишком плохо ,
Мой результат оценки был:
RECALL = 0,0889
PRECISION = 0,0990
F_MEASURE = 0,0937
AER = 0,9035
доза любое тело знает причину? Может быть, причина в том, что я забыл некоторые параметры, или я должен изменить некоторые из них?
других слов:
Сначала я хотел поезд Giza ++ огромного количества данных, а затем проверить его небольшим корпус и сравнить свой результат с помощью желаемого выравнивания (ЗОЛОТОЙ СТАНДАРТ), но я не нашел ни одного документа или полезная страница в Интернете.
Вы можете ввести полезный документ?
Поэтому я запустил его маленькой кучей (предложение 447) и сравнил результат по желаемому выравниванию. Как вы думаете, это правильный путь?
Также я изменил свой код следующим образом и получил лучший результат, но это еще не хорошо:
GIZA ++ -S testlowsf.f.vcb -T testlowde.e.vcb -C testlowsf.f_testlowde.e.snt - м1 5 -m2 0 -mh 5 -m3 5 -m4 0 -CoocurrenceFile inputcooc.cooc -o словарь -model1dumpfrequency 1 -model4smoothfactor 0,4 -nodumps 0 -nsmooth 4 -onlyaldumps 1 -p0 0,999 диагональных да -final да
результат оценки:
// Предположим, что A является результатом GIZA ++ и G является стандартом Gold. As и Gs - это ссылка S в файлах A и G. Ap и Gp - это p-ссылка в файлах A и G.
ВЫЗОВ = Как пересекаются Гс/Гс = 0,6295
ПРЕЦИЗИОННЫЙ = Ар пересекаются Gp/A = 0.1090
FMEASURE = (2 * Прецизионные * ВЫЗОВ)/(RECALL + прецизионность) = 0.1859
AER = 1 - ((как пересечение Gs + Ap пересекается с Gp)/(A + S)) = 0,7425
Знаете ли вы причину?
, пожалуйста, прочитайте мой ответ (комментарий) на тему «Плохой результат и оценка от Giza ++» –