Недавно я использовал функцию OCR Adobe Acrobat Pro для обработки японского словаря кандзи. Общее качество вывода, как правило, немного лучше, чем я надеялся, но границы слов в английских частях текста часто теряются. Например, вот одна строка из моего файла:Разделительная строка на вероятных английских границах слов
softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself
я мог ходить и вставить недостающие границы слова везде, но это было бы добавление к тому, что уже является важной задачей. Я надеюсь, что может существовать программное обеспечение, которое может анализировать текст таким образом, где некоторые из слов выполняются вместе и разбивают текст на вероятные границы слов. Есть ли такой пакет?
Я использую Emacs, поэтому было бы очень мило, если бы пакет, о котором идет речь, уже был пакетом Emacs или может быть легко интегрирован в Emacs, чтобы я мог просто навести курсор на строку, подобную приведенной выше и повторно ссылаются на некоторую команду, которая разбивает линию на границах слов в порядке убывания вероятной корректности.