В настоящее время мы сохраняем файлы (PDF, DOC) в базу данных как поля BLOB. Я хотел бы получить исходный текст файла, чтобы иметь возможность манипулировать им для выделения подсветки и других функций.Сохраните двоичный файл на SQL Server как BLOB и текст (или получите текст из полнотекстового индекса)
Кто-нибудь знает простой способ либо разобрать файлы, либо сохранить исходный текст при сохранении, либо через код SQL, либо .net. Я обнаружил, что Adobe имеет утилиту filterdump, которая преобразует PDF в текст. Filtdump кажется инструментом командной строки, и я не вижу способа использовать поток файлов. И что будет для экстрактора для документов Office и других типов файлов?
-или-
Есть ли способ, чтобы вытащить необработанный текст из SQL полнотекстового индекса, без использования фильтров 3rd Party?
Примечание я пытаюсь построить .net & решение MSSQL без необходимости использовать сторонний инструмент, такой как Lucene
Если добавить комментарии к ответам, которые появились до сих пор, мы можем улучшить наши ответы. – egrunin