2008-11-14 5 views
9

У меня есть набор имен и адресов, которые были введены в таблицу Excel, но проблема заключается в том, что многие люди, которые ввели адреса, ввели их во многих разных нестандартных форматах. Я хочу очистить адреса перед переносом всех из них в мою базу данных. Оглядываясь вокруг, все, что я действительно нашел в способе адресных скрубберов (парсеров или форматировщиков), - это тот, который выдается Semaphore. Для моих целей мне действительно не нужно все это, и я не хочу платить за лицензионные сборы за программное обеспечение. Есть ли что-нибудь, что есть Свободный и/или Открытый Источник, который сделает очистку для меня?Скраббер с открытым исходным кодом?

+0

Возможно, укажите некоторые данные примера. – Till

ответ

6

Так как я работаю в почтовом бизнесе ...

адрес разрешенного к пересылке по почте не гео-кодирование. Один позволяет USPS доставлять почту, а другой говорит вам, где именно находится эта точка. USPS не кодирует свои почтовые адреса. Это полезно для маркировки областей/регионов людей для таргетинга.

Вы не покупаете лицензию на программное обеспечение, вы покупаете данные. В почтовом отделении есть много правил, особенно если вы делаете это коммерчески и пытаетесь получить лучший курс, чем первый класс. См. USPS Domestic Mail Manual для получения полного списка правил. USPS постоянно перемещает молнии и домашние хозяйства между почтовыми индексами. Компания (я работаю) оплачивает USPS за обновленный список рассылки, чтобы мы могли обновлять наши БД. Weekly.

Назад к вопросу. Вы хотите изменить данные в общий формат (street -> st) или ищете дубликаты и хотите хранить только реальные почтовые адреса?

для общего формата; вы можете разбить адрес на части, очистить пробел и применить словарь терминов/переводов. Затем примените несколько sql, чтобы найти дубликаты. Имейте в виду, что домашние хозяйства (1 главная улица) отличаются от людей (john doe, 1 main st).

для почтовых адресов, но некоторым из вас (читателям) не понравится этот ответ, но вам нужна информация, а это не бесплатно. Кто-то тратит время или деньги на приобретение и ведение этих списков. Итак, найдите бизнес-модель для получения средств для списка или обратитесь к тому, кто сделает это за вас. Data and mail management

Реально, Semaphore довольно дешево, просто имейте в виду, что адрес db придется обновлять ежеквартально и $ 19/quarter довольно дешево.

Другой продукт для очистки от царапин. SAP PostalSoft. Я не знаю, какие данные будут стоить.

0

Большая часть программного обеспечения, с которым я работал, это очень дорого (или, говоря иначе, отделы маркетинга наивны и имеют огромные бюджеты).

Этот вид работы является предшественником геокодирования. Этот linked Wiki article содержит список программного обеспечения Geocoding, некоторые из которых являются бесплатными. Если вам повезет, некоторые из бесплатных могут включать процедуры стандартизации адреса.

Если вы найдете хороший, дайте мне знать.

0

Мы используем Accuzip. Это намного дешевле, чем большинство решений (~ $ 700/год), и поставляется с двухмесячными обновлениями. Он использует API стандартизации адресов USPS, для которого я написал оболочку .NET. Это позволяет мне запускать его в режиме реального времени (Accuzip, по умолчанию, поставляется только с пакетным режимом).

3

Я на самом деле работает в адресной проверки промышленности ... ответ Джим умный принять. К сожалению, для тех из нас, у кого низкий бюджет, официальные данные USPS являются дорогими, а системы сложны. (Я знаю по опыту, так как компания, с которой я работаю, SmartyStreets, обеспечивает проверку адреса по более низким ставкам, чем большинство.)

Лучшее, что я могу сделать здесь, чтобы помочь, рекомендует недорогую/бесплатную альтернативу (в зависимости от вашего том), например, LiveAddress, где для списка адресов нет минимальной покупки, а API - очень дешевый и сверхлегкий, сравнительно.

+0

ОБНОВЛЕНИЕ: служба API проверки адресов (на SmartyStreets) теперь бесплатна, если вам все еще нужно хорошее решение. – Matt