2016-07-11 18 views
1

Программы распознавания часто ошибочно распознают заглавную букву O как ноль или наоборот. Например, они могут распознать Over как 0ver или хорошо, как we11.Как изменить файл аффикса Hunspell, чтобы разрешать номера в словах?

Я пытался добавить

REP 0 O 
REP 1 l 

в файл аффикса, но это не сработало, потому что цифры, видимо, считаются границы слов.

(у меня был взгляд на hunspell man page, но я не могу понять, какие из многочисленных настроек необходимо изменить, чтобы числа в словах.)

ответ

1

Из страниц Справочника:

REP, что замена В этой таблице указаны изменения для первой попытки. Первым REP является заголовок этой таблицы и одна или несколько строк данных REP: . С этой таблицей Hunspell может предложить правильные формы для типичных орфографических ошибок, когда неправильная форма отличается более чем на 1 букву в правой форме. Строка поиска поддерживает граничные знаки регулярных выражений (^ и $). Например возможное английская замена определение таблицы для обработки с ошибками согласные:

  REP 5 
      REP f ph 
      REP ph f 
      REP tion$ shun 
      REP ^cooccurr co-occurr 
      REP ^alot$ a_lot 

Вы добавили первую строку, REP + количество замен?

+0

Спасибо за ваш ответ. Я добавил заголовок с количеством следующих записей и всех остальных операторов REP. Что не работает: 'REP 0 O' –

+0

Считаете ли вы возможным, что hunspell видит REP, за которым следует целое число, и интерпретирует его как заголовок вместо замены? В этом случае размещение нулевой замены в конце может работать, если это не так, я боюсь, что это надзор за реализацией Hunspell. –

+0

Возможно, вы правы. Парсер Hunspell, вероятно, путается числами в операторах REP. –