2014-09-30 4 views
0

Я работаю с устаревшей системой ввода данных, которая не использовала управляемые входы. Все хранится в поле varchar (max) и, к сожалению, содержит много вариантов в том, как все сказано.SQL Server 2014 String Поиск по категориям: Сложные CASE WHEN (правила) для нескольких строк поиска

Если я хочу знать, когда что-то калибруют, я не могу просто сказать: «где t.col как„% кал%“

Она будет работать в таких случаях, как» CAL, CAL., Calib. Калибровка, калибровка, калибровка, калибровка, Cal'd ...», но не для варианта, который был с орфографической ошибкой.

Кроме того, человек может сказать„НЕТ кал reqd, не кал.,“

Текст может «вывести», что действие было выполнено. «Калибровка» может быть записана как «Откорректировано до базовой линии, скорректировано на процедуру».

Как вы можете видеть по одному случаю, существует буквально тысячи потенциальных «правил». «

Мне потребовалось около 2 недель для работы с около 30 тыс. Записей и разумно проанализировать их примерно на 30 (0,1/истинных/ложных) категорий, что данные f ell в.

Я хочу знать, может ли кто-нибудь указать мне на полезную конструкцию запроса с использованием T-SQL для замены ручной обработки.

+0

Там нет волшебной кнопки вы можете использовать, чтобы получить структурированные данные из неструктурированного текста. – JNK

+0

@JNK могут быть запросы с правилами, которые могут быть изменены для этого проекта. Если мне не нужно писать все с нуля, это было бы полезно. Ясно, что это сложно. получи. – SheilaC

ответ

0

я нашел следующее написанный Деяна Шарка, Microsoft MVP: индексирование, запрашивая и анализа текста с SQL Server 2012-2014: http://www.pluralsight.com/courses/description/indexing-querying-analyzing-text-with-sqlserver-2012-2014

страница говорит: «Трудно себе представить, ища что-то на Web без современных поисковых систем, таких как Bing или Google. Однако большинство современных приложений по-прежнему ограничивают пользователей точными поисками. Для конечных пользователей даже стандартный SQL LIKE-оператор недостаточно эффективен для приблизительного поиска. Кроме того, многие документы хранятся в современных базы данных, конечным пользователям, вероятно, также хотелось бы получить мощный поиск внутри содержимого документа. Текстовый интеллектуальный поиск также становится все более популярным. Все хотели бы понять данные от блогов, веб-сайтов и социальных сетей. Microsoft SQL Server в версиях 2012 и 2014 расширяет поддержку полнотекстового поиска, которая была в основном доступна в предыдущих выпусках. Семантический поиск, новый компонент в полнотекстовом поиске, поможет вам понять смысл документов. Наконец, компоненты Срок экстракции и Term Lookup из служб интеграции SQL Server также помогает.»

Это вдоль линий, что я ищу. Thx! -S