2015-09-23 3 views
0

У меня есть набор данных клиентов, что я хочу определить частые критерии, чтобы нарисовать картину идеального клиента. Набора данных имеют следующие поля:Как оптимизировать анализ ассоциации, чтобы правила имели смысл?

  • электронной почты
  • ПолноеИмя
  • Работа (название)
  • компании веб-домен
  • описание компании (строка данные)
  • компания основано (год)
  • сотрудников компании (номер)
  • город город
  • госкомпания
  • компания страна
  • группы следовали к LinkedIn
  • создано
  • обновленный

для сотрудников компании, компания, основанная, созданные и обновляемые нет числовых данных, за исключением. У набора данных есть другие полезные данные, такие как возраст (интервал) и пол, но у него слишком много отсутствующих значений, поэтому я удалил их для целей анализа.

Я побежал код в R:

data1 <- read.csv("final_account_list.csv") 

library(arules) 

str(data1) 

data1$Company.Founded <- factor(data1$Company.Founded) 

rules1 <- apriori(data1) 

rules1 

inspect(rules1) 

options(digits=2) 
inspect(rules1[1:5]) 

Я получаю список из 59 правил, но они не имеют смысла. Например,
{Company.Employees = 500} => {Company.Country США} поднять 1,176, уверенность = 0,083, поддержка = 0,109

Тот факт, что большинство клиентов имеют 500 сотрудников и в США не приносит большое значение. Как сделать анализ более значимым?
Например, как найти связь для названия, географических регионов (города, штата) и связанных групп?

ответ

0

Самая нетривиальная часть состоит в том, чтобы определить, какое «осмысленное правило» означает для вас с точки зрения правого (rhs) и/или левого (rhs).

Затем, как описано в документации к пакету apriori, вы можете исследовать свои правила.

Для примера

, как я могу найти ассоциацию для ... групп к LinkedIn

вы можете использовать

# find rules with "linkedin groups followed" in right-hand-side 
rulesLinkedIn = subset(rules1, subset = rhs %in% "linkedin groups followed")) 
# inspect rules with highest confidence 
inspect(head(sort(rulesLinkedIn, by="confidence")), n=3) 

 Смежные вопросы

  • Нет связанных вопросов^_^