2011-02-08 2 views
3

Я хочу извлечь текстовую информацию, содержащуюся в файле изображения постскриптума (подписи к меткам оси). Эти изображения были сгенерированы с помощью pgplot. Я пробовал ps2ascii и ps2txt на Ubuntu, но они не дали полезных результатов. Кто-нибудь знает о другом методе?Есть ли способ извлечь текстовую информацию из файла postscript? (.ps .eps)

Благодаря

ответ

6

Вполне вероятно, что pgplot обратил шрифты в тексте непосредственно с линиями, а не с помощью текста. Тем более, что pgplot предназначен для вывода на широкий спектр устройств, включая плоттеры, где вам придется это делать.

Edit:

Если у вас есть достаточное количество участков, стоит усилий, чем это очень простая задача обработки изображения. Преобразуйте каждую страницу в нечто вроде tiff, в mono chrome Порог изображения в двоичный, текст будет максимальным значением пикселя.

Используйте технику, соответствующую шаблону. Если у вас есть ограниченный набор возможных меток, тогда просто введите всю метку, вы можете даже начать с помощью правильного размера и вращения. Затем просто отметьте каждый график как содержащий метку [1-n], no необходимо прочитать фактический текст.

Если вы не знаете ярлык, то вы можете еще делать OCR довольно легко, просто извлечь область вокруг оси, повернуть его по вертикали - и использовать бесплатно OCR LIB от Google

Если вы pgplot вы можете даже построить набор подготовки для распознавания текста или шаблон изображение напрямую, а , чем того, чтобы собрать их из списка изображений

+0

постскриптума pgplot примера HTTP: //www.astro.caltech .edu/~ tjp/pgplot/example1.ps.gz делает именно это. Методы OCR являются альтернативой, но в то же время может быть одинаково быстро набирать титры, в зависимости от того. – DSM

+0

@ DSM: Меня действительно интересует обратное проектирование. Используя ваш пример, я хочу извлечь строку «y = x² exp (-x)» из рисунка example1.ps – Hooloovoo

+0

@Hooloovoo: Я получаю это, но прав Мартина: в этом примере самого текста нет, только строки, составляющие символы. (Это то, что я подразумевал под «делает именно это».) Вы должны сами посмотреть файлы, чтобы убедиться. Я могу только думать о двух правдоподобных способах отменить текст: вы можете применить методы OCR к растровому изображению, или (поскольку вы можете, предположительно, сделать словарь новых подписей), возможно, разобрать постскриптум напрямую. – DSM

 Смежные вопросы

  • Нет связанных вопросов^_^