2011-01-29 6 views
0

Я пытаюсь нормализовать данные и записи ссылок в соответствии с юридическим названием бизнес-единицы.Нормализовать данные в соответствии с бизнес-субъектом (Юридическое имя, класс бизнеса, домен DNS, тип компании)

Где я могу определить юридическое название компании и общую информацию об этой компании? У меня будет хотя бы одно из следующего: Символ запаса, DBA (короткое имя), имя DNS или полное юридическое имя.

До сих пор я обнаружил, что с

  • Опираясь на WHOIS дает мне личное, или устаревшую информацию
  • Wolfram Alpha API дает мне большую часть того, что мне нужно для public companies, но ничего полезного для private таких компаний, как LEGO
  • Анализ шаблонов для символа (c) может помочь в процессе разрешения, но не соответствует имени в авторитетном списке.

Поскольку все условные обозначения классифицируются; это легко.

Как я могу конвертировать, нормализовать и проверять DBA (короткое имя), имя DNS или полное юридическое название для некоммерческих или некоммерческих предприятий, которые могут быть даже расположены за рубежом?

(например, MET Музей как DBA или metmuseum.org в качестве сайта, или «Музей Метрополитен» Юридическое название)

+0

Я уверен, что люди, заинтересованные в нормализации базы данных, рассмотрят этот вопрос далеко не по теме. (Это наблюдение, а не критика.) Я знаю, что «нормализация» используется во многих разных контекстах с разными значениями на SO, поэтому я собираюсь оставить этот тег на месте. –

ответ

1

Я не уверен, что это лучшее место, чтобы задать свой вопрос. Может быть, ваш местный библиотекарь мог бы помочь. Во всяком случае, я отвечаю, потому что я проделал большую работу в этом направлении в прошлом, и потому что я обнаружил, что программисты и разработчики баз данных часто знают, где искать данные - особенно авторитетные и стандартные данные.

На местном уровне (в США) мы приняли то, что нам дала местная торговая палата. На национальном уровне мы купили списки от InfoUSA. Данные торговой палаты могут быть довольно шелушатся; Данные InfoUSA очень чисты.

Dun & Bradstreet является самым близким, которого я знаю в универсальном глобальном реестре предприятий. Они не дешевые.

RBA, компания в Великобритании, похоже, имеет действительно полезное введение с глобальной перспективой. См. Official Company Registers. Большая часть данных бесплатна.

1

Я занимался некоторыми исследованиями в этой области и нашел недавний документ, в котором обсуждается подход к извлечению, обнаружению (посредством кластеризации) и нормализации (путем расширенного редактирования расстояния) имен организаций. NEMO