2014-12-03 7 views
0

Я использую pdfMiner для считывания значений с графиков, и до сих пор он отлично работает!Как использовать pdfMiner в python для предсказания прочитанных значений

Однако существует одна область, в которой правильные данные считываются правильно, но непредсказуемым образом, то есть они будут правильно считывать все значения графиков в совершенно ином порядке, чем они появляются.

Это не совсем проблема, потому что, пока я знаю, скажем, что последний график всегда будет прочитан первым, я смогу структурировать свою программу вокруг этого. Кроме того, кажется, что pdfMiner почти полностью непредсказуем в том, как он читает эти данные, я не могу найти различимого шаблона.

Это, скорее всего, потому, что я не знаком с pdfMiner, поэтому я не совсем уверен, как это работает. Так что было бы очень полезно, если бы кто-нибудь мог просто указать мне в правильном направлении.

Here мои данные

А вот преобразование кода я использую:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 
from pdfminer.converter import TextConverter 
from pdfminer.layout import LAParams 
from pdfminer.pdfpage import PDFPage 
from cStringIO import StringIO 
global values 

print "Getting readable PDF" 

rsrcmgr = PDFResourceManager() 
retstr = StringIO() 
codec = 'utf-8' 
laparams = LAParams() 
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) 
fp = file("graphExtraction.pdf", 'rb') 
interpreter = PDFPageInterpreter(rsrcmgr, device) 
password = "" 
maxpages = 0 
caching = True 
pagenos=set() 
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching,   check_extractable=True): 
    interpreter.process_page(page) 
fp.close() 
device.close() 
str = retstr.getvalue() 
retstr.close() 
values = str 

ответ

0

Использование информации ограничительная рамка следить за потоком ваших документов и выяснить, что приходит первым.

 Смежные вопросы

  • Нет связанных вопросов^_^