2014-05-21 4 views
1

Я использую хэш IP + User Agent как уникальный идентификатор для каждого пользователя, который посещает веб-сайт. Это простая схема с довольно явным ловушкой: Идентификация коллизий. Несколько человек просматривают Интернет с помощью той же комбинации IP + -пользователя. Уникальные пользователи, идентифицированные одним и тем же хешем, будут распознаваться как один пользователь. Я хочу знать, как часто эта ошибка идентификатора будет сделана.Почему увеличивается коэффициент коллизии идентификаторов?

Чтобы вычислить частоту, я создал двухступенчатую последовательность, которая теоретически должна конвертироваться при нулевом проценте: publish.click>signup.complete. (Пользователи должны зарегистрироваться до их публикации.) Запуск этой последовательности в течение 1 дня дает мне коэффициент конверсии 0,37%. Эта фигура, я полагаю, является моей уникальной вероятностью столкновения идентификатора для этой последовательности. Глядя на необработанные данные (таблица длиной около 10 000 строк), я подтвердил эту гипотезу. 37 подписей были завершены новыми пользователями, идентифицированными тем же хешем, что и старые пользователи, которые завершили publish.click во время периода воронки (1 день). (Я знаю это, потому что хэш подобраны через воронку, в то время как UIDs, которые назначены на Signup, не сделал.)

Я думал, что все поняли ...

Но тогда я побежал воронку в течение 1 недели, а коэффициент конверсии увеличился до 0,78%. В течение 5 месяцев коэффициент конверсии подскочил до 1,71%.

Что можно здесь сыграть? Почему скорость конверсии (столкновения) увеличивается с увеличением периода эксперимента?

Я думаю, что это может иметь что-то делать с тем фактом, что уникальные пользователи, как правило, только огонь signup.complete один раз, в то время как они могут стрелять publish.click несколько раз в течение определенного периода. Однако я борюсь за то, чтобы поставить эту гипотезу в слова.

Любая помощь будет оценена по достоинству.

+1

1% все еще низкий. он подразумевает коэффициент нагрузки <5%. Насколько велик ваш стол? Сколько записей присутствует? – wildplasser

+0

@wildplasser Добавлены некоторые пояснения к вашим точкам. Благодарю. – samthebrand

ответ

1

Возможные объяснения, начиная с самого простого:

  1. Частота столкновений является относительно стабильным, но ваше первоначальное измерение не является существенным из-за низкого объема позитивов, которые вы получили. 37 не очень много. В этом случае у вас есть две достойные точки данных.

  2. Коэффициент столкновения не очень стабилен и изменяется со временем по мере изменения использования (на работе, дома, с мобильного и т. Д.). Тот факт, что у вас есть три точки данных, которые показывают восходящий тренд, - это просто совпадение. Это меня не удивит, так как коэффициенты конверсии воронки со временем значительно меняются, особенно на еженедельной основе. Также боты, которых мы не поймали.

  3. Если вы действительно получаете несколько изданий, а регистрация - это абсолютно одноразовая вещь, тогда ваш коэффициент столкновения будет увеличиваться по мере того, как пользователи, которые только подписались и не опубликовали в конечном итоге публикацию. Это не приведет к увеличению их конверсии воронки, но оно предоставит дополнительную публикацию для кого-то еще, чтобы конвертировать. По существу, каждый дополнительный публикация повышает вероятность того, что я, как новый пользователь, собираюсь запутаться с предыдущим событием публикации.

Примечание от ОП. Гипотеза 3 оказалась правильной гипотезой.