2011-12-30 1 views
1

Воспользуйтесь приведенной ниже ссылкой в ​​качестве примера: http://www.yelp.com/biz/chef-yu-new-york.Как Yelp создает раздел «Обзорные моменты»?

В разделе «Основные моменты обзора» есть 3 фразы (пряный кубик, счастливый час, специальные предложения), которые подсвечиваются на основе отзывов, представленных пользователями. Очевидно, что это фразы, которые появлялись чаще всего, или самые длинные фразы, которые часто появлялись или какая-то другая логика.

Их официальное объяснение заключается в следующем:

В своих обзорах, Yelpers упомянул связанные фразы ниже много. И это не какие-то старые общие фразы, они также являются тем, что наши роботы Yelp определили уникальные и хорошие, быстрые способы для описать этот бизнес. Нажмите любую из фраз, чтобы увидеть все обзоры , которые упоминают об этом.

Мой вопрос в том, что они использовали для ввода текста для получения этих данных? Это какой-то алгоритм, основанный на Lempel Ziv, или какой-то вид карты? Я не был майором CS, поэтому, наверное, я здесь что-то теряю. Хотели бы получить помощь, теории и т. Д.

Спасибо!

ответ

0

Lempel-Ziv - это алгоритм сжатия данных, а map-reduce - это метод обработки данных. Первый, вероятно, не задействован, и последний, как правило, полезен, но не имеет значения здесь.

Не зная подробности коды Yelp, это невозможно сказать наверняка, но мне кажется, вероятно, что их «изюминка обзора» просто основана на перфорационные все фразы, которые появляются в обзорах для этого бизнеса, то отображения те, которые более распространены в обзорах для этого бизнеса, чем для других предприятий. Некоторая часть обработки естественного языка, вероятно, будет задействована для обеспечения того, чтобы он выбирал существительные.

+0

Это, что «перфорационных все фразы» что мне интересно. Я думал, что, поскольку фразы имеют разную длину и сложность, возможно, они использовали некоторые вариации LZ для создания словаря, а затем выводят 3 самых длинных или самых используемых фраз. Возможно, они достигают этого по-другому. Любые идеи о том, что они могут использовать? Инструмент, технология или алгоритм? – Nuby

1

У меня нет никакого представления о точном алгоритме, который использует Yelp, но это общая проблема в обработке естественного языка. По существу, вы хотите извлечь наиболее релевантные коллокации (http://en.wikipedia.org/wiki/Collocation).

Простой способ сделать это, чтобы извлечь список n-grams с самым высоким PMI (потоковая взаимная информация). Этот вопрос SO объясняет, как это сделать с помощью Python и NLTK библиотеки:

How to extract common/significant phrases from a series of text entries

 Смежные вопросы

  • Нет связанных вопросов^_^