2015-12-27 1 views
0

У меня есть две ячейки.Сравнение двух разных предложений с одинаковым значением в Excel

Cell 1 contains this value --> Portfolio Rule Failure (Justification Required): Style Sector Structure:  0.93% for MUNI - SENIOR LIVING breaks the 0.00% maximum failure limit. Style Min Security Rating: NR breaks the BBB- minimum failure limit. 

Cell 2 contains this value --> Hard Rule Failure (Requires Portfolio Rule Justification to override): Sector Max Weight % - Style failed: MUNI - SENIOR LIVING: 0.93% Min None Max 0% Min Security Rating - Style failed: Worse Than BBB-: 0.93% Min None Max 0% 

Если вы читаете, оба изображения имеют одинаковое значение. Если я попытаюсь сравнить оба эти выражения в excel, он скажет, что оба они разные. Но на самом деле они имеют одинаковый смысл, хотя используемые слова различны. Есть ли способ в Excel или некоторых инструментах анализа данных сказать, что оба они одинаковы?

Один из способов заменить похожие слова шаблона в одном из столбцов другим, но у меня есть 1000 записей таких, поэтому это может быть практически невозможно обновить вручную.

Прошу совета.

+0

Вы можете разбить предложения на слова, удалить пробелы, знаки препинания и заглавные буквы; то вы можете сравнить, насколько они похожи на содержание слова. Но этого недостаточно для обработки естественного языка. Сравните: «этот суп хороший», «это суп очень хороший», и «этот суп не очень хорош». Основываясь на расстоянии редактирования или композиции слов, вы не можете определить, какие из них одинаковы. С гораздо большим корпусом текста вы можете попробовать различные методы [NLP] (https://en.wikipedia.org/wiki/Natural_language_processing), но было бы кошмаром для кода в VBA. – arvi1000

+0

@ arvi1000 - большое спасибо за приятное объяснение – Arun

ответ

2

Вот такой подход, который вы можете попробовать: если вы можете получить полный список всех возможных сообщений или шаблонов сообщений в специальном листе и выполнить идентификацию дубликатов там и предоставить стандартное определение, то используйте vlookup, чтобы захватить этот стандарт

По существу, вы строите словарь, который служит для интерпретации сообщений один раз, а затем ссылайтесь на него по мере необходимости.

Вам может понадобиться для анализа исходного сообщения на логические части как типа сообщения, например, жесткий отказ, предупреждение и т.д.

атрибутов, которое вызвало сообщение, например, Муни - СТАРШИЙ ЖИВЫХ

Причина, например, предел отказа превышено