Мы предварительно обработали данные набора данных вилка и добавили категорию, подкатегорию для каждого ресторана. Наши данные теперь содержит строки Business_id
, name
, review_count
, stars received
, nearby_school
, category
, subcategory
, is_vegetarian
, latitude
, longitude
.Нужна помощь, связанная с набором данных yelp
Описания столбцов по этой ссылке: https://www.yelp.com/academic_dataset
Пример строки:
__EmsZiRXiUmljbfpOqZig,Awful Arthur's Seafood Co,11,2.5,Virginia Tech,Restaurant,Seafood,no,37.2283389,-80.4142281
Мы хотим, чтобы понять, какой тип кухни является более популярным рядом (например, морепродукты, китайский, американский, индийский). школа. Мы новичок в анализе данных. Может кто-нибудь помочь дать какие-либо предложения, как это сделать?
Данные имели несколько категорий, поэтому я разделил их на категории и подкатегории, как в приведенном выше примере. Я планирую скопировать данные вокруг школы и, таким образом, удалить выбросы. Затем умножьте количество просмотров и рейтинг для вычисления значения для всех строк. Затем выделите подмножества рядом с каждой школой. Затем вычислите среднее значение для каждой категории, пары подкатегорий для каждого подмножества. Наибольшее среднее значение будет самым популярным рестораном. Будет ли это правильным путем? – PSH