У меня есть набор данных клиентов, что я хочу определить частые критерии, чтобы нарисовать картину идеального клиента. Набора данных имеют следующие поля:Как оптимизировать анализ ассоциации, чтобы правила имели смысл?
- электронной почты
- ПолноеИмя
- Работа (название)
- компании веб-домен
- описание компании (строка данные)
- компания основано (год)
- сотрудников компании (номер)
- город город
- госкомпания
- компания страна
- группы следовали к LinkedIn
- создано
- обновленный
для сотрудников компании, компания, основанная, созданные и обновляемые нет числовых данных, за исключением. У набора данных есть другие полезные данные, такие как возраст (интервал) и пол, но у него слишком много отсутствующих значений, поэтому я удалил их для целей анализа.
Я побежал код в R:
data1 <- read.csv("final_account_list.csv")
library(arules)
str(data1)
data1$Company.Founded <- factor(data1$Company.Founded)
rules1 <- apriori(data1)
rules1
inspect(rules1)
options(digits=2)
inspect(rules1[1:5])
Я получаю список из 59 правил, но они не имеют смысла. Например,
{Company.Employees = 500} => {Company.Country США} поднять 1,176, уверенность = 0,083, поддержка = 0,109
Тот факт, что большинство клиентов имеют 500 сотрудников и в США не приносит большое значение. Как сделать анализ более значимым?
Например, как найти связь для названия, географических регионов (города, штата) и связанных групп?