2015-05-15 3 views
0

У меня есть некоторые данные, которые я получаю от банков, использующих Yodlee, и соответствующие сообщения о транзакции на мобильном устройстве. Оба имеют некоторое описание в них - короткие описания.Соответствие 2 коротких описаний и возврат уровня достоверности

Например -

string1 = "tatasky_TPSL MUMBA IND" 
string2 = "tatasky_TPSL" 

Они могут быть согласованы, если один является полностью внутри другого. Однако некоторые строки, такие как

string1 = "T.G.I Friday's" 
string1 = "TGI Friday's MUMBA MAH" 

Все еще необходимо подбирать. Есть ли алгоритм y, который дает уровень достоверности в сопоставлении двух описаний?

+0

ли вам нужно только регулярное выражение SOLN? – Ajay

+0

как строки1 и строка2 разделены в вашем случае? –

+1

https://docs.python.org/2/library/difflib.html#difflib.get_close_matches – Alik

ответ

1

Возможно, вы захотите использовать нормализованное расстояние редактирования, также называемое расстояние от левенства levenstien distance wikipedia. Таким образом, после получения levenstien расстояния между двумя строками, вы можете нормализовать его, разделив на длину самой длинной строки (или в среднем по этим двум строкам). Этот нормализованный socre может действовать как конфиденциальный. Вы можете найти 4-5 пакетов python для расчета расстояния levenstien. Вы можете попробовать его в Интернете, а также edit distance calculator

В качестве альтернативы один простое решение алгоритма называется наибольшей общей подпоследовательности, который может быть использован здесь

 Смежные вопросы

  • Нет связанных вопросов^_^