link text Я хочу использовать TIFF IFilter, встроенный в Windows 2008 Server R2, с полнотекстовым поиском в SQL Server 2008 ... также R2.TIFF IFilter неправильно читает текст в столбце VARBINARY
Я установил фильтр через диспетчер сервера и обновил «Force TIFF IFilter» для выполнения OCR для каждой страницы в документе TIFF «Локальная групповая политика» в «Конфигурация компьютера» -> «Административные шаблоны» -> «OCR» - «Включено».
Я также создал полнотекстовый каталог и таблицу с именем «FileData», который выглядит следующим образом:
CREATE TABLE [FileServer].[FileData](
[FileDataId] [int] IDENTITY(1,1) NOT NULL,
[FileGUID] [uniqueidentifier] ROWGUIDCOL NOT NULL,
[Data] [varbinary](max) FILESTREAM NOT NULL,
[Extension] [nvarchar](100) NULL,
[Filename] [nvarchar](256) NULL,
[Path] [nvarchar](256) NULL,
CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED
(
[FileDataId] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] FILESTREAM_ON [FILES],
CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED
(
[FileGUID] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY] FILESTREAM_ON [FILES]
GO
SET ANSI_PADDING OFF
GO
ALTER TABLE [FileServer].[FileData] ADD CONSTRAINT [DF_FileData_FileGUID] DEFAULT (newid()) FOR [FileGUID]
GO
ALTER TABLE [FileServer].[FileData] ADD CONSTRAINT [DF_FileData_FileData] DEFAULT (0x) FOR [Data]
GO
Когда я вставить файл в эту таблицу, как PDF или слово DOC, я могу нажмите ключевые слова в файле через несколько секунд с полнотекстовым поиском:
Я сделал большой огромный TIFF-файл с очень четким текстом (1024 x 768 ... около 12 слов) и импортировал THAT в таблицу FileData. Я могу найти каждое слово в нем.
SELECT [Path], [Filename], [Data]
FROM [FileServer].[FileData]
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif');
Однако, когда я использую «реальный» файл TIFF, как таблицу от производителя, я получаю ZERO результатов при поиске по ключевым словам. Я не знаю, почему, и не так много онлайновых устранения неполадок с SQL Server.
Я попытался сохранить файл .TIFF с различными видами сжатия, без сжатия и т. Д. ... и мне просто не повезло. Текст в моем тестовом файле CRYSTAL прозрачный и все еще довольно большой. Я не могу представить, что ясность файла является проблемой, хотя я полагаю, что это возможно.
Только так вы бы с чем сравнивать, я взял следующие два изображений и импортировать их:
WORKING SAMPLE FILE BROKEN SAMPLE FILE
Результатов для рабочего образца действительно хороши. Эти ключевые слова из рабочего образца в полнотекстовый индекс: $ 3,50 © 21:35:42 изобилуют впитывают абстрактный сопровождается приобрела акт действия преимущества агентство алгоритма алгоритмов уже составляет амстердама анализа апп появились приложений беседку arnficioj artficia1 назначения B.V. основы основа Букер бригада ведро здание BV возможности тщательно изменений характеристики шашки классификатора classtfier закрытие познавательный сравнения конкурирующих сложных сложности сложности компьютера сталкивается путают 44445164 +10617451515053691368888 считают постоянных непрерывно непрерывно надуманного кредита лечения Д.Э. данные де приличная определено определение дизайн разработан разработки открытие обсуждение мешая во экологических экономических EECS усилию Elsevier КОНЕЦ ФАЙЛА инженерной среды сред ERR даже события пример демонстрирует опыта выразил дошедших до нас расширения лица лица выполнимы файла обжига первого потока следующего формата игры генерирует общего генетического давая голов Голдберг хорошо holiadd HOLLAND однако гипотезы изображения погружает иммунной падающего неявно нечетко информации разведданных интереса вмешивается Введения ненужных J.H. jh журнал l.b. большой фунты узнать обучение срока службы долго машины млекопитающего млекопитающих массивно сообщения млекопитающего ми Мичигане нового nn000 nn08 nn1989 nn2010 nn21 nn235 nn282 nn3116 nn3702 nn3d5 $ nn40 nn48109 nn89 шумные севера н.у.к. роман Новизна получают часто один работать вариант первоначально вне собственной бумаги параллельно прохождения образца расплаты разрешения бессрочной постоянно игры плеер 44445164 +10617451515053691368888 играет возможных довольно проблем обеспечивает издателю издателей быстро случайно редко реальная реалистичные армирование неоднократно перепечатаны требованиями сетчатка отзывы Пересмотреть роботизированной правила правило науки последовательности как таковые TS значительно простых просто маленькой редкой системы системы помечена методы теории Thor размолвки время tt2135 дважды закручивается два обычно U.S.A. университет на нас США визуальных об без удивления мира
Но результаты из разорванного образца просто ... ну, вакантный.Ни одно слово из фактического TIFF изображения: 21:49:22 конца файла файла формат изображения nn08 nn2010 nn21 помечены размолвка tt2149
If у кого-нибудь есть идеи о том, что попробовать дальше, я ВСЕ уши.
OK ... Мой сервер - Server 2008 R2, а ключи реестра в вышеупомянутой статье - даже не EXIST. Однако я нашел это значение: HKEY_LOCAL_MACHINE \ SYSTEM \ CurrentControlSet \ Control \ TiffIFilter \ MaxImageSize. Я действительно очень разочарован в документации по этому конкретному IFilter ... просто не похоже на его фактическое поведение. Это, вероятно, хорошо для Sharepoint, но, как администратор разработчика/SQL, мне нужно немного больше. Возможно, MS прочитает это и обновит его для нас. –
ОК, еще один аспект проблемы. Значение реестра, которое у меня есть, - 38797312. Это должно перевести примерно 388 МБ, дайте или возьмите. Изображение, которое я разместил, было довольно большим, но не таким большим. –
Исходный файл - 25.823 дюйма x 34.458 дюймов как 96 DPI.Изменение DPI до 300 приносит размер до 9.163 x 12.228, но не изменяет размер файла. Это изолирует проблему от ширины/высоты документа как размеров, а не от размера файла или WxH в пикселях. Я полагаю, что сейчас я просто преобразую все файлы .TIFF в 300 DPI на лету. Я уже конвертирую PDF в TIFF, поэтому изменение этого значения в программе не должно быть большим делом. –