Php - Загрузить документ, docx, pdf - извлечь весь контент

Есть ли способ выполнить OCR при загрузке документа?Php - Загрузить документ, docx, pdf - извлечь весь контент
можно проиндексировать весь документ?
может содержать индекс поисковой системы всего документа? Хотя пользователи должны платить за просмотр полного документа?
Может ли документ отображаться в виде предварительного просмотра, только видимый отрывок, а остальные размыты, если формат документа остается видимым?

Я пытался найти легкие решения этих вопросов, используя простые функции php или что-то, что не могло бы показаться наукой о ракетах. Но везде, где я смотрю, я вижу, как люди говорят об ApachePOI и Solr Cell и обо всех этих командах сервера, о которых я понятия не имею. По последнему вопросу я мог только понять, что мы можем использовать PHPGD и генерировать изображения с размытым контентом, но я не был уверен, как это сделать, если в документе были отформатированный текст, изображения и таблицы и т. Д.

Так что, если у кого-то есть простые решения или даже сложные решения, но с инструкциями EASY, это будет сделано. Что-то вроде «извлечение содержимого документа php для noobs», которое начнется с a-b-c.

Спасибо заранее!

источник

2012-01-28 salmanhijazi

В этом вопросе слишком много обложки. Вы должны задать отдельный вопрос для каждой отдельной части этого. – Polynomial

Разве нет решения для подписчиков, которое удовлетворит все потребности? Как простая техническая техника извлечения, которая сделает все это? За исключением последнего вопроса, но это не главная проблема здесь и может быть проигнорировано. – salmanhijazi

Нет. Вам повезет найти lib, который охватывает более одного из них сразу, тем более, что вы спрашиваете о нескольких форматов документов. – Polynomial

Zend_Search_Lucene содержит код для чтения файла docx, который будет работать только на PHP.

Для PDF и doc вы можете использовать служебные программы командной строки для извлечения текстового содержимого, такого как catdoc или pdftotext. Вы можете найти такие утилиты для большинства форматов файлов, если вы будете искать их. Они обычно упаковываются большинством дистрибутивов.

Из формата необработанного текста вы можете отправить его в любую полнотекстовую поисковую систему.

источник

2012-01-28 22:42:46

Есть ли способ выполнить OCR при загрузке документа?

Уверенный, OCR работает с любыми данными изображения. Компоненты OCR существуют, просто используйте один.

мы можем проиндексировать весь документ?

Я не могу сказать вам, если «мы» может, но я могу индексировать документы. Вам просто нужен документ, индекс и рутина для индексации документа.

может содержать индекс поисковой системы всего документа? Хотя пользователи должны платить за просмотр полного документа?

Это зависит от формата документа. Если документ защищен и индекс не может получить доступ к нему полностью, он не сможет его полностью проиндексировать.С другой стороны, если индекс способен обойти защиту, он может все равно его индексировать, но это может быть юридически сомнительным в некоторых областях права. Технически это не должно быть проблемой.

может документ отображаются в виде предварительного просмотра только выбранный отрывок видимого, а остальное размыто с форматом документ все еще видимого?

Почему нет? Я имею в виду, если у вас есть такая процедура отображения, которая делает это, в чем заключена сделка?

Если это ваша проблема в том, что вы не знакомы с используемыми технологиями, я предлагаю вам связаться с кем-то знакомым и объяснить это вам. Однако для некоторых задач компоненты должны существовать, но вам нужно собрать их вместе. Ваш вопрос слишком много, так что есть решение из коробки.

источник

2012-01-29 10:38:06 hakre

Полином правильный. Вы не найдете все это в одном месте. Даже OCR будет требовать, чтобы несколько модулей работали правильно, и ничто из этого не будет абсолютно бесплатным. Если вам нужен разумный OCR, вам нужно будет использовать коммерческий движок.

Вам понадобится конвертер Word DOC/DOCX To TIFF вместе с конвертером PDF в TIFF или вам нужно будет купить что-то вроде ABBYY FineReader SDK для выполнения OCR, которое не будет дешевым, но, безусловно, будет намного лучше работать, чем Tesseract OCR.

Индексирование и поиск, вероятно, легкие бит с использованием ApachePOI и Solr Cell, но для размытого предварительного просмотра потребуется некоторая специальная кодировка.

Этот проект не будет легким или дешевым.

источник

2012-01-29 11:18:54

Для Word Doc/Docx to Tiff можно использовать http://www.convertapi.com. Просто обратите внимание на @Hakre. – Tomas

Php - Загрузить документ, docx, pdf - извлечь весь контент

ответ

Смежные вопросы