2015-05-07 4 views
0

Мне дается набор веб-страниц, и мне нужно создать рекомендацию для страницы. В зависимости от того, какой URL-адрес предоставляется приложению, приложение должно иметь возможность обнаруживать страницы из данного пула, похожие на страницу по URL-адресу.Из пула веб-страниц, поиск страниц, похожих на любую данную веб-страницу


Я попытался найти различные подходы к этому. Меня заинтересовало использование слова2vec. Я планирую просканировать весь заданный набор веб-страниц и генерировать теги для этой страницы на основе содержимого на этой странице. Из этих тегов я надеялся использовать word2vec для вычисления векторного значения для страницы и сохранения его. При поиске я мог бы сгладить вектор для данной страницы аналогичным образом, чтобы искать похожие значения. Это правильный способ использования word2vec? Какой учебный вектор следует использовать? Любой другой лучший способ выполнить эту задачу? Или просто обычное сопоставление текста было бы лучшим вариантом?

ответ

0

Я бы рекомендовал использовать существующий IR-источник с открытым исходным кодом для обработки ваших документов, то есть для индексации ваших обходных веб-страниц и запроса для получения результатов. Вы можете попробовать указательный документ с помощью elastic индекса всех страниц и запрос с использованием more like this query из эластичной документации:

Подробнее Как запрос (MLT Query) находят документы, которые «как» данный набор документов