2

link text Я хочу использовать TIFF IFilter, встроенный в Windows 2008 Server R2, с полнотекстовым поиском в SQL Server 2008 ... также R2.TIFF IFilter неправильно читает текст в столбце VARBINARY

Я установил фильтр через диспетчер сервера и обновил «Force TIFF IFilter» для выполнения OCR для каждой страницы в документе TIFF «Локальная групповая политика» в «Конфигурация компьютера» -> «Административные шаблоны» -> «OCR» - «Включено».

Я также создал полнотекстовый каталог и таблицу с именем «FileData», который выглядит следующим образом:

CREATE TABLE [FileServer].[FileData](
[FileDataId] [int] IDENTITY(1,1) NOT NULL, 
[FileGUID] [uniqueidentifier] ROWGUIDCOL NOT NULL, 
[Data] [varbinary](max) FILESTREAM NOT NULL, 
[Extension] [nvarchar](100) NULL, 
[Filename] [nvarchar](256) NULL, 
[Path] [nvarchar](256) NULL, 
CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED 
(
[FileDataId] ASC 
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] FILESTREAM_ON [FILES], 
CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED 
(
[FileGUID] ASC 
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] 
) ON [PRIMARY] FILESTREAM_ON [FILES] 

GO 

SET ANSI_PADDING OFF 
GO 

ALTER TABLE [FileServer].[FileData] ADD CONSTRAINT [DF_FileData_FileGUID] DEFAULT (newid()) FOR [FileGUID] 
GO 

ALTER TABLE [FileServer].[FileData] ADD CONSTRAINT [DF_FileData_FileData] DEFAULT (0x) FOR [Data] 
GO 

Когда я вставить файл в эту таблицу, как PDF или слово DOC, я могу нажмите ключевые слова в файле через несколько секунд с полнотекстовым поиском:

Я сделал большой огромный TIFF-файл с очень четким текстом (1024 x 768 ... около 12 слов) и импортировал THAT в таблицу FileData. Я могу найти каждое слово в нем.

SELECT [Path], [Filename], [Data] 
FROM [FileServer].[FileData] 
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif'); 

Однако, когда я использую «реальный» файл TIFF, как таблицу от производителя, я получаю ZERO результатов при поиске по ключевым словам. Я не знаю, почему, и не так много онлайновых устранения неполадок с SQL Server.

Я попытался сохранить файл .TIFF с различными видами сжатия, без сжатия и т. Д. ... и мне просто не повезло. Текст в моем тестовом файле CRYSTAL прозрачный и все еще довольно большой. Я не могу представить, что ясность файла является проблемой, хотя я полагаю, что это возможно.

Только так вы бы с чем сравнивать, я взял следующие два изображений и импортировать их:

WORKING SAMPLE FILE BROKEN SAMPLE FILE

Результатов для рабочего образца действительно хороши. Эти ключевые слова из рабочего образца в полнотекстовый индекс: $ 3,50 © 21:35:42 изобилуют впитывают абстрактный сопровождается приобрела акт действия преимущества агентство алгоритма алгоритмов уже составляет амстердама анализа апп появились приложений беседку arnficioj artficia1 назначения B.V. основы основа Букер бригада ведро здание BV возможности тщательно изменений характеристики шашки классификатора classtfier закрытие познавательный сравнения конкурирующих сложных сложности сложности компьютера сталкивается путают 44445164 +10617451515053691368888 считают постоянных непрерывно непрерывно надуманного кредита лечения Д.Э. данные де приличная определено определение дизайн разработан разработки открытие обсуждение мешая во экологических экономических EECS усилию Elsevier КОНЕЦ ФАЙЛА инженерной среды сред ERR даже события пример демонстрирует опыта выразил дошедших до нас расширения лица лица выполнимы файла обжига первого потока следующего формата игры генерирует общего генетического давая голов Голдберг хорошо holiadd HOLLAND однако гипотезы изображения погружает иммунной падающего неявно нечетко информации разведданных интереса вмешивается Введения ненужных J.H. jh журнал l.b. большой фунты узнать обучение срока службы долго машины млекопитающего млекопитающих массивно сообщения млекопитающего ми Мичигане нового nn000 nn08 nn1989 nn2010 nn21 nn235 nn282 nn3116 nn3702 nn3d5 $ nn40 nn48109 nn89 шумные севера н.у.к. роман Новизна получают часто один работать вариант первоначально вне собственной бумаги параллельно прохождения образца расплаты разрешения бессрочной постоянно игры плеер 44445164 +10617451515053691368888 играет возможных довольно проблем обеспечивает издателю издателей быстро случайно редко реальная реалистичные армирование неоднократно перепечатаны требованиями сетчатка отзывы Пересмотреть роботизированной правила правило науки последовательности как таковые TS значительно простых просто маленькой редкой системы системы помечена методы теории Thor размолвки время tt2135 дважды закручивается два обычно U.S.A. университет на нас США визуальных об без удивления мира

Но результаты из разорванного образца просто ... ну, вакантный.Ни одно слово из фактического TIFF изображения: 21:49:22 конца файла файла формат изображения nn08 nn2010 nn21 помечены размолвка tt2149

If у кого-нибудь есть идеи о том, что попробовать дальше, я ВСЕ уши.

ответ

1

Хорошо, оказывается, что фактической проблемой был РАЗМЕР изображения. OCR в ITFF IFilter просто не пыталась его обработать ... слишком большой. Я должен был обнаружить это путем проб и ошибок и не смог найти документацию с указанием максимального размера/DPI входящего TIFF. Кто-нибудь знает эти спецификации? Эта статья, как представляется, содержит некоторую информацию: support.microsoft.com/kb/837847 Но специфична для Sharepoint, и я не успел возиться с настройками, чтобы увидеть, работает ли она. Кроме того, мне действительно нужно просто удалить кепку размера. Идеи есть?

+0

OK ... Мой сервер - Server 2008 R2, а ключи реестра в вышеупомянутой статье - даже не EXIST. Однако я нашел это значение: HKEY_LOCAL_MACHINE \ SYSTEM \ CurrentControlSet \ Control \ TiffIFilter \ MaxImageSize. Я действительно очень разочарован в документации по этому конкретному IFilter ... просто не похоже на его фактическое поведение. Это, вероятно, хорошо для Sharepoint, но, как администратор разработчика/SQL, мне нужно немного больше. Возможно, MS прочитает это и обновит его для нас. –

+0

ОК, еще один аспект проблемы. Значение реестра, которое у меня есть, - 38797312. Это должно перевести примерно 388 МБ, дайте или возьмите. Изображение, которое я разместил, было довольно большим, но не таким большим. –

+0

Исходный файл - 25.823 дюйма x 34.458 дюймов как 96 DPI.Изменение DPI до 300 приносит размер до 9.163 x 12.228, но не изменяет размер файла. Это изолирует проблему от ширины/высоты документа как размеров, а не от размера файла или WxH в пикселях. Я полагаю, что сейчас я просто преобразую все файлы .TIFF в 300 DPI на лету. Я уже конвертирую PDF в TIFF, поэтому изменение этого значения в программе не должно быть большим делом. –

1

Попробуйте преобразовать нерабочее изображение в черно-белое и посмотреть, распознается ли больше слов.

Добавлено

Использование Try IrfanView (или любой другой инструмент, изображение), чтобы установить DPI второго изображения 300. Затем повторите попытку.

Очевидно, что эти этапы устранения неполадок не являются постоянными решениями, они просто помогают изолировать проблему.

1

rwong является правильным. Вам нужно изолировать проблему.

Не все двигатели OCR могут обрабатывать цветные изображения TIFF и предпочитают Ч/Б. Я предполагаю, что OCR Engine даже не обрабатывает вашу нерабочую страницу и просто выдает сообщение об ошибке, которое вы не видите.

  1. Как описано выше, попробуйте сохранить файл в виде черно-белого изображения в формате TIFF.
  2. Сохраните файл в формате JPEG и попробуйте распознать изображение в формате JPEG.

Я запустил ваш рабочий образ через свое OCR и смог извлечь большую часть текста правильно, поэтому разрешение не является серьезной проблемой.

0

я нахожу что-то интересное

Я использую C# сделать

    Image tiffFile = Image.FromFile(TiffPath); 

        resultFilePath = Path.Combine(tempFolder, Path.GetFileName(TiffPath)); 

        tiffFile.Save(resultFilePath); 

И использовать поместить новый файл в формате TIFF в базе данных, это работа, я не знаю, почему, но решить мою проблему

+0

Я нахожу больше, похоже, если тип сжатия tiff-файла - LZW, нет никакой проблемы, чтобы получить текст –