2016-12-20 6 views
0

Я должен соответствовать названию двух научных статей, используя n-gram (только uni, bi и tri) Я спросил у моего руководителя, что при сопоставлении мне нужно назначить больше веса для биграмм, сопоставленных с оценками, чем униграммный сопоставленный термины оценка и больше веса для триграмм сопоставимых терминов оценка, чем сумма баллов, соответствующая биграмме. Например, два биграма сопоставляются в заголовке, тогда оценка = 2 и две тигры сопоставляются, тогда оценка = 2 Мне нужно найти некоторые значения, а затем умножить их на оценки, которые увеличат балл триграмм и уменьшат оценку биграма Я искал исследовательские работы, связанные с этой проблемой, но я не мог получить от нее никакой помощи. :(Как назначить больший вес биграмме и триграмме?

Может кто-нибудь дать некоторое представление о том или какой-либо ссылку на документ, который может решить проблему ??

+1

Добро пожаловать в Stack Overflow. Пожалуйста, примите [тур] и прочитайте о [спросите] хороший вопрос. –

+0

В чем проблема? Добавление весов - это простое умножение, и ваш вопрос probsbly не «как я делаю умножение». Пожалуйста, уточните, где ваша проблема, лучше всего с некоторыми * code * для обсуждения. –

ответ

0

в интерполяции, мы всегда смешивать оценки вероятности из всех N-грамм оценок, взвешивания и объединения триграммы, биграммы и числа униграмм. В простой линейной интерполяции мы объединяем различные порядковые N-граммы путем линейной интерполяции всех моделей. Таким образом, мы оцениваем вероятность триграммы P (wn | wn-2wn-1) путем смешивания вероятности униграмм, биграмм и триграмм, каждый взвешенный по λ:

Linear interpolation formula

таким образом, что λs просуммировать 1: