начало сеанса/конец
Простой подход просто выбрать номер, который указывает на сеанс закончился, я видел 20 минут бездействия, используемых для просмотра сеанса закончилась.
Более надежный подход включает в себя обработку этого как probabilistic problem с учетом отсутствия фиксированной длины сеанса или фиксированного количества времени между сеансами.
Первое, что вам нужно сделать, это посмотреть на данные. В частности, время между приемами. У вас есть список событий, посвященных странице. Вам нужно будет рассчитать распределение времени между приемами в секундах (время, прошедшее между посещениями страниц).
Справедливое допущение состоит в том, что распределение будет выглядеть Poisson-like, или это будет похоже на Пуассон, но additional humps, если межсессионные времена действительно сгруппированы.
Если данные показывают хороший Poisson distribution, простой подход заключается в использовании распределения времени посещения напрямую.
Принимая percentile, который подходит вашему прецеденту из распределения времени между приемами, вы можете определить довольно полезный порог, выше которого время начала прибытия предполагает начало нового сеанса.
В качестве альтернативы, если это более полезно, вы можете использовать распределение, чтобы получить вероятность наблюдения за временем прибытия, с низкой вероятностью, указывающей начало/конец нового сеанса.
Более сложным является то, что распределение является бимодальным, скажем, потому что люди склонны размещать свои сеансы аналогичным образом. Если это так, может быть проще исследовать простой алгоритм кластеризации, такой как k-средства, в моменты времени между приходами, где вы ожидаете, что один кластер для сессионных посещений и один кластер для межсеансовых посещений.
граф сеансы
После того, как вы прибыли в соответствующем методе для выявления различных сессий, это простой случай, чтобы назначить каждую сессию с уникальным ключом, группами по пользователю и сосчитать уникальные ключи.
В вашем журнале доступа также содержится идентификатор пользователя Я предполагаю? – mtoto
Если у вас есть страница входа или любая страница, которая дает аутентификацию, вы можете считать только те. – Knight71
@ Knight71 это хорошая идея, если нет опции «запомнить меня» – ImDarrenG