2010-08-24 4 views
6

Как такие сервисы, как Alexa и Google Analytics, способны отслеживать возраст, пол, образование в колледже и т. Д.?Как Alexa и Google Analytics отслеживают демографию?

http://www.alexa.com/siteinfo/stackoverflow.com

+0

Хороший вопрос! Я предполагаю, что они собирают наши IP-адреса через сайты социальных сетей и связывают информацию таким образом. – mpen

ответ

5

Alexa определенно получает информацию о своем движении со своих пользователей панели инструментов. Поскольку это относительно небольшая и самовыбирающаяся группа людей, это неизбежно приводит к предвзятому образцу (именно поэтому трафик Alexa не соответствует измеренному трафику на сайтах, которые я запускаю). Даже при использовании лучших статистических методов для снижения предвзятости вы никогда не сможете полностью избавиться от него, когда распределение выборки не является однородным.

Непонятно, как Google это делает, хотя это может включать отслеживание файлов cookie.

Проект, над которым я работал недавно, имеет отношение к этому вопросу.

Другим способом сделать это (что также имеет предубеждения, но разные) было бы использование службы IP для определения местоположения, чтобы найти приблизительную широту и долготу каждого посетителя на вашем сайте. Затем используйте мой проект (полное раскрытие: я бегу на этот сайт и это коммерческий):

http://askgeo.com

Чтобы получить демографическую информацию для этого места. AskGeo фактически предоставляет демографическую информацию на нескольких географических уровнях (штат, округ, округ, город, почтовый индекс, переписной участок (несколько тысяч человек) и группа переписей (около тысячи человек). Предположительно вы хотели бы использовать (например, группа переписей) для данной широты и долготы.

Сайт возвращает огромное количество демографических переменных. Идея заключалась бы в использовании мягких подсчетов из демографических переменных, предоставляемых на уровне группы блоков. например, если вы пытаетесь отслеживать возрастное распределение своих пользователей, то вы должны использовать возрастные диапазоны, предоставленные в ответе AskGeo, и для данного образца вы добавили бы дробное мягкое подсчет в каждый диапазон, соответствующий процент населения в этой группе блоков из соответствующего возрастного диапазона. Например, возьмите мой район в Сан-Франциско. из-за возрастного распределения:

  • CensusAgePercent0To4: 7,3%
  • CensusAgePercent5To9: 3,5%
  • CensusAgePercent10To: 3,2%

... (пропуск немного, как вы, вероятно, получите идею). ..

  • CensusAgePercentOver85: 1,5%

Если у вас есть IP-адрес, который вы отследили для этой группы переписей, вы должны добавить каждый из этих процентов (как часть от 0 до 1) к вашим (мягким) счетчикам для этих возрастных диапазонов. (Мягкий счетчик - это просто счетчик, который допускает нецелое число.)

Вы могли бы сделать то же самое с расы, пола, уровня доходов, ценностей дома и т.д.

Этот метод также имеет уклоны, наверняка, так как он предполагает, что все люди в той или иной группе блоков одинаково вероятно, посетит ваш сайт. Но это то, что вы можете делать на своем собственном сайте, а не только Google и Alexa, и это все равно даст вам относительное ощущение того, кто посещает ваш сайт, если ваши мягкие подсчеты в данной категории выше, чем в среднем по стране категория.

Возможно также, что более сложная техника, чем простые прямые подсчеты, может привести к значительно более богатому результату.

0

Я сделал некоторые исследования, и, видимо, эти демографические отслеживаются те же демография способ телеаудитории отслеживаются. Есть люди, которые просматривают их панели инструментов (Alexa's), которые отслеживают посещаемые сайты. Эти люди охотно (?) Предоставляют информацию, такую ​​как возраст, пол и т. Д., И Алекса экстраполирует общую демографию из этого образца. Это, конечно, оставляет место для предвзятости, но это проблема со статистикой.

0

Alexa получает информацию от панелей инструментов браузера, которые вы устанавливаете специально или как часть пакета с некоторым программным обеспечением. Он задает вопросы для понимания демографических параметров, а также отслеживает посещаемые вами сайты. Если вы знаете, что 80% посетителей сайта - женщины, и у вас есть новый посетитель, который посещает этот сайт, вы можете думать, что существует высокая вероятность того, что этот человек является женщиной. Если вы знаете много сайтов, которые посещают этот человек, вы можете многое догадаться.

Но поскольку http://netberry.co.uk/alexa-rank-explained.htm говорит, что вы можете полагаться только на информацию от Alexa TOP100,000, потому что тогда у Alexa достаточно информации от небольшого количества пользователей, посещающих эти сайты. Они говорят «миллионы», но это небольшая доля от общего количества