2015-06-03 5 views
1

Я начал работать на Freebase. У меня есть путаница в отношении веб-страниц:В чем смысл «эквивалентных веб-страниц» в Freebase?

В следующих link они описывают эквивалентных веб-страниц как ссылки на внешние веб-страницы. Эти внешние страницы являются страницами Википедии и страницами Freebase, страницами IMDb и т. Д.

Что они подразумевают под «внешними страницами»? Я не понял, вне того, что именно? Является ли это внешним объектом?

Внешние страницы для Barack Obama являются:

Являются ли эти страницы уникальные для "Барака Обамы"? Мы не можем считать их уникальными идентификаторами.

Это страницы, на которых появляется лицо «Барак Обама»?

ответ

1

Этот ответ может быть неопределенным, поскольку у меня нет копии бесплатной базы. На основе ссылки, которую вы указали, хотя они, как представляется, являются ссылками/uris, которые используются как значения для свойства Topic Equivalent Webpage. topic_equivalent_webpage имеет описание:

Веб-страницы, которые являются единственными в фокусе, описывающих тему. (т. е. страница, которая касается только темы.)

Таким образом, это то, что они есть - у них есть один фокус, описать тему (в данном случае, Барак Обама), и может происходить откуда угодно Web. Я не уверен в ложных позициях в freebase, поэтому я был бы осторожен, чтобы считать их уникальными идентификаторами для этой темы. Я считаю, что они больше похожи на значения rdfs:seeAlso в семантических терминах Web, а не на эквивалентных/одинаковых. Вы можете запустить несколько проверок в ваших КБ:

  1. Вы можете проверить, есть ли owl:sameAs связи между этими страницами и лицами Барака Обамы. В этом случае вы можете считать их эквивалентными в абсолютном смысле (например, все, что утверждается в отношении Барака Обамы, может распространяться и удерживаться для «эквивалентной» сущности/страницы). Опять же, в контексте вашего KB/freebase.

  2. Предполагая, что эти значения для topic_equivalent_webpage собственности, вы можете проверить, если свойство имеет rdfs:subPropertyOf или owl:equivalentProperty отношения с owl:sameAs. В этом случае ваша база знаний рассматривает их как эквивалентные.

+0

Правдоподобное предположение, но не правильное. –

1

Подавляющее большинство из них можно считать сильными идентификаторами. Вы можете узнать, какие из них просматриваются на вкладке «Ключи» https://www.freebase.com/m/02mjmr?keys=

Это одна из самых сильных сторон Freebase, это изобилие согласованных идентификаторов объектов для широкого спектра различных внешних источников информации (Wikipedia, IMDB, MusicBrainz, Library of Congress, и т. д.).

Каждый ключ связан с пространством имён, в котором он уникален, и каждое пространство имен имеет связанный с ним шаблон URI, который используется для создания URI из ключей. Например, URL-адрес Bioguide в Конгрессе связан с пространством имен, контролируемым Библиотекой Конгресса и заполненным идентификаторами THOMAS, которые используются для идентификации законодателей.

Возможно, для пользователей Freebase можно добавлять другие полностью сформированные URL-адреса, но это редко случается. Однако, если вы работаете с ключами, вы можете получить только сильные идентификаторы, а не случайные URL-адреса.

EDIT: Вот что они выглядят как в объемном Freebase RDF отвала:

<http://rdf.freebase.com/ns/m.010q36> <http://rdf.freebase.com/ns/common.topic.topic_equivalent_webpage> <http://openlibrary.org/authors/OL514554A> . 
<http://rdf.freebase.com/ns/m.010q36> <http://rdf.freebase.com/ns/book.author.openlibrary_id> "OL514554A" . 
<http://rdf.freebase.com/ns/m.010q36> <http://rdf.freebase.com/ns/type.object.key> "/authority/openlibrary/author/OL514554A" . 
<http://rdf.freebase.com/ns/m.010q36> <http://rdf.freebase.com/key/authority.openlibrary.author> "OL514554A" . 

Сокращенный для лучшего представления:

<s> <fb:/ns/common.topic.topic_equivalent_webpage> <http://openlibrary.org/authors/OL514554A> . 
<s> <fb:/ns/book.author.openlibrary_id> "OL514554A" . 
<s> <fb:/ns/type.object.key> "/authority/openlibrary/author/OL514554A" . 
<s> <fb:/key/authority.openlibrary.author> "OL514554A" . 

Единственный OpenLibrary идентификатор представлен в четырех различных формах, что немного чрезмерным, важной частью является то, что в пространстве имен /authority можно полагаться как сильный идентификатор.