2013-11-25 3 views
-1

Мы предварительно обработали данные набора данных вилка и добавили категорию, подкатегорию для каждого ресторана. Наши данные теперь содержит строки Business_id, name, review_count, stars received, nearby_school, category, subcategory, is_vegetarian, latitude, longitude.Нужна помощь, связанная с набором данных yelp

Описания столбцов по этой ссылке: https://www.yelp.com/academic_dataset

Пример строки:

__EmsZiRXiUmljbfpOqZig,Awful Arthur's Seafood Co,11,2.5,Virginia Tech,Restaurant,Seafood,no,37.2283389,-80.4142281 

Мы хотим, чтобы понять, какой тип кухни является более популярным рядом (например, морепродукты, китайский, американский, индийский). школа. Мы новичок в анализе данных. Может кто-нибудь помочь дать какие-либо предложения, как это сделать?

+0

Данные имели несколько категорий, поэтому я разделил их на категории и подкатегории, как в приведенном выше примере. Я планирую скопировать данные вокруг школы и, таким образом, удалить выбросы. Затем умножьте количество просмотров и рейтинг для вычисления значения для всех строк. Затем выделите подмножества рядом с каждой школой. Затем вычислите среднее значение для каждой категории, пары подкатегорий для каждого подмножества. Наибольшее среднее значение будет самым популярным рестораном. Будет ли это правильным путем? – PSH

ответ

1

Как очень простой анализ, вы можете создать индекс для всех предприятий в соседней школе. И затем для каждого школьного класса предприятия по кухне и звездам получили.

Есть много моделей, которые вы могли бы найти в университетах.