2010-10-27 2 views
8

У меня есть набор данных, который содержит много адресов (60 000-их записей). Я хочу классифицировать эти адреса как по жилым, так и по бизнес-адресам.Как проверить, является ли адрес бизнес-адресом или адресом проживания

Кто-нибудь знает хороший API/Сервис, чтобы начать это делать?

  • Я не думаю, что геокодер Google Maps может это сделать в это время.

  • Fedex и UPS оба, кажется, есть API, но они только выпустили компании, отгрузка продукции (вроде необходимости знать основы только)

USPS API: https://www.usps.com/nationalpremieraccounts/rdi.htm

Fedex API: http://www.fedex.com/us/developer/web-services/index.html

Это хобби-проект, поэтому бесплатно или дешевле! Но платные решения не могут быть и речи.

+1

Просто имейте в виду, что единственные официальные данные об этих вещах взяты из самого USPS, который лицензирует данные только для сравнения скорости доставки ... так что не забудьте проверить условия перед погружением. – Matt

ответ

0

Посмотрите на API в http://compass.webservius.com

Это перечисление 16+ миллионов предприятий в США (стремится быть полный список предприятий). Если адреса нет, скорее всего, это адрес проживания.

+0

Это выглядит действительно хорошо. Мне нужно будет открутить его. если это сработало! –

+0

Наконец-то, чтобы понять это, это решение не совсем для меня. API очень строгий, поскольку он требует точных совпадений или точные префиксные совпадения для параметров поиска, поэтому в результатах API не найдено много нерезидентного адреса, который исказил мои результаты. Я также пробовал подход с ограничивающей рамкой, используя lat, lng (который у меня также есть для моего набора данных), но результатов, похоже, не хватало. Может быть, я ошибаюсь, или, может быть, мне нужно каким-то образом нормализовать мои адреса. –

0

Это немного взломанный, но почему бы не написать сценарий, чтобы проверить, содержит ли первая строка адреса какое-либо из последних имен из списка переписей? Это должно обеспечить вам большую часть адресов. Предполагая, что имя человека/бизнеса является частью вашего адреса.

+0

Это немного Я надеюсь, что это может привести к множеству ложных срабатываний.Пример John Smith @ blah blah попадет в магазины магазинов Smith & Wesson. –

+0

Это хороший момент. Вы можете немного усовершенствовать его, чтобы избежать появления символов, t в именах и искать имя, или Mr/Mrs/etc и фамилию, но это все еще далека от совершенства. – Swordgleam

6

Как уже упоминалось ранее, RDI - это путь. RDI означает «индикатор доставки жилья», и он сообщает вам, является ли адрес жилой или коммерческой. Единственная проблема заключается в том, что вы должны быть разработчиком, чтобы использовать его и. У вас должны быть стандартизированные и сертифицированные адреса, не говоря уже о ежегодной пошлине за лицензирование USPS за сотни долларов. После того, как вы получите его и запрограммировали решение, вы можете просто указать ему адрес с любым старым ZIP и ожидать его работы. Адрес должен иметь полный штрих-код точки доставки по 12 цифр.

Или вы можете воспользоваться услугами поставщика, чтобы сделать то же самое, и заплатить около 50-100 долларов за список вашего размера.

Полное раскрытие информации: Я являюсь основателем SmartyStreets. Мы внесли RDI в наше предложение без дополнительной оплаты. Это означает, что это так же просто, как перетащить ваш список на наш сайт и обработать его и обратно за считанные секунды. Мы также предлагаем API веб-сервиса address verification, который будет отображать индикатор жилого/делового бизнеса, чтобы вы знали, с каким видом адреса вы работаете.

2

Whitepages утверждает, что они позволяют вам делать это в своем API. Для хобби - до 200 запросов в день, это бесплатно. Вы запросили бы тип зонирования.

Структура данных идентификатора адреса содержит поле «использование», которое описывается как «Действителен только для адреса местонахождения в США« LocationType ». Это указывает на мнение Почты США о том, является ли этот адрес в основном« бизнес »или« жилой ».

 Смежные вопросы

  • Нет связанных вопросов^_^