Разделительная строка на вероятных английских границах слов

Недавно я использовал функцию OCR Adobe Acrobat Pro для обработки японского словаря кандзи. Общее качество вывода, как правило, немного лучше, чем я надеялся, но границы слов в английских частях текста часто теряются. Например, вот одна строка из моего файла:Разделительная строка на вероятных английских границах слов

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

я мог ходить и вставить недостающие границы слова везде, но это было бы добавление к тому, что уже является важной задачей. Я надеюсь, что может существовать программное обеспечение, которое может анализировать текст таким образом, где некоторые из слов выполняются вместе и разбивают текст на вероятные границы слов. Есть ли такой пакет?

Я использую Emacs, поэтому было бы очень мило, если бы пакет, о котором идет речь, уже был пакетом Emacs или может быть легко интегрирован в Emacs, чтобы я мог просто навести курсор на строку, подобную приведенной выше и повторно ссылаются на некоторую команду, которая разбивает линию на границах слов в порядке убывания вероятной корректности.

источник

2010-02-13 Sean

Я ничего, к сожалению, ничего не нашёл, и в итоге пошел с более interactive approach.

источник

2010-05-10 01:34:48 Sean

Я не знаю ничего, что уже существует.

Простейший метод, просто соответствует набору самых длинных слов, содержащихся в вашей строке, в словаре. Конечно, может быть много слов, поэтому вам придется планировать все комбинации и перестановки. Это дорого стоит сделать так, но довольно быстро писать.

источник

2010-02-13 18:45:00 pestilence669

Разделительная строка на вероятных английских границах слов

ответ

Смежные вопросы