2017-01-10 11 views
0

Мы получаем много счетов самообновления от клиента, всегда в том же формате, и мне нужно манипулировать им в конкретном формате Excel для импорта в мою учетную систему.PDF to excel custom script

Каким будет лучший язык кодирования для этого?

Спасибо,

Nik

ответ

0

Это звучит как сложная часть получает информацию из Ф. Для этого вы можете использовать OCR. Как только это будет сделано, вы можете использовать VBA (Office Automation) для загрузки в Excel.

Большинство API OCR не только возвращают текст, но и определяют координаты (ограничивающие рамки) слов. Вот пример из свободного OCR.space OCR API:

Выход API является ответом JSON как это:

{ 
    "ParsedResults": [ 
    { 
     "TextOverlay": { 
     "Lines": [ 
      { 
      "Words": [ 
       { 
       "WordText": "TEXT", 
       "Left": 279, 
       "Top": 89, 
       "Height": 40, 
       "Width": 107 
       } 
      ], 
      "MaxHeight": 40, 
      "MinTop": 89 
      }, 
      { 
      "Words": [ 
       { 
       "WordText": "WALKING", 
       "Left": 233, 
       "Top": 144, 

Другие интерфейсы с одной и той же функции будет Google Cloud Зрение, Когнитивные службы Microsoft и Abbyy.

В качестве следующего шага вы можете проанализировать JSON-файл и найти информацию, находящуюся в определенном диапазоне x/y, и назначить ее определенным полям в Excel.

+0

спасибо, я дам это –