0
Я пытаюсь извлечь текст из PDF, который встроен в веб-страницу. Я попытался использовать жемчужину для PDF-ридера, но я получил ошибку синтаксического анализа.Я не могу извлечь данные из встроенного PDF (Ruby)
`find_first_xref_offset': PDF does not contain EOF marker (PDF::Reader::MalformedPDFError)
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader/xref.rb:99:in `load_offsets'
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader/xref.rb:60:in `initialize'
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader/object_hash.rb:44:in `new'
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader/object_hash.rb:44:in `initialize'
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader.rb:117:in `new'
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader.rb:117:in `initialize'
from role.rb:5:in `new'
from role.rb:5:in `<main>'
Каждый знает, как я могу это исправить? для этого есть лучший камень?
спасибо
У меня все еще есть та же проблема. Я попытался получить доступ к файлу напрямую по URL-адресу и загрузить PDF-файл, чтобы прочитать его локально. [Это файл] (http://www.tesoreria.cl/portal/portlets/imprimirAR/printAR.do?rutrol=32807514010&t=C&formulario=30&folio=3287514413&vcto=2013-11-30) – felipecamposclarke