2016-09-11 4 views
6

В Wikidata (Wikidata SPARQL endpoint) есть ли способ заказать результаты запроса SPARQL с чем-то вроде PageRank?Результаты Wikidata, отсортированные по чем-то похожим на PageRank

SELECT DISTINCT ?entity ?entityLabel WHERE { 
    ?entity wdt:P31 wd:Q5. 
    SERVICE wikibase:label { 
    bd:serviceParam wikibase:language "en" . 
    } 
} LIMIT 100 OFFSET 0 

Можно ли указать поле, чтобы заказать результаты по и что поле выражает, что объект на вершине более заметным/важно/узнаваем, что следующий один и так далее?

+0

Аналогичный вопрос здесь? http://stackoverflow.com/questions/39040060/sparql-select-the-most-relevant-category-of-a-dbpedia-resource –

+0

Не совсем то же самое, что вопрос связан с DBpedia, а мой связан с Wididata. DBpedia имеет этот «pagerank» http: //people.aifb.kit.edu/ath/# DBpedia_PageRank, который помогает упорядочить результаты по релевантности. Мой вопрос в том, есть ли у Викидаты эквивалентный ранг, который я могу использовать. – jordipala

ответ

2

Похоже, что PageRank не имеет особого отношения к Wikidata. Очевидно, что большие классы и крупные агрегаты будут лидерами.

Кроме того, в отличие от веб-ссылок, предикаты RDF являются «судоходными» с обеих сторон; это всего лишь вопрос дизайна, URI которого является субъектом, а URI - объектом.

Однако Andreas Thalhammer continues его работы. Топ 10 викиданных лица являются:

Q729 animal  24996.77 
Q30  USA   24772.45 
Q1360 Arthropoda 16930.883 
Q1390 insects  16531.822 
Q35409 family  14403.091 
Q756 plant  14019.927 
Q142 France  13723.484 
Q34740 genus  13718.484 
Q16  Canada  12321.178 
Q159 Russia  11707.16 

К сожалению, в отличие от DBpedia PageRanks, викиданный не PageRank-опубликован в конечной точке, один не может запросить их с помощью SPARQL.


К счастью, можно найти какое-то ранжирование. Возможные варианты:

  1. Количество заявлений длительности исходящего (precalculated);
  2. Количество дополнительных ссылок (precalculated);
  3. Число входящих операторов (в приведенном ниже примере учитываются только truthy утверждений).

Пример запроса:

SELECT ?item ?itemLabel ?outcoming ?sitelinks ?incoming { 
    ?item wdt:P31 wd:Q185441 . 
    ?item wikibase:statements ?outcoming . 
    ?item wikibase:sitelinks ?sitelinks . 
     { 
     SELECT (count(?s) AS ?incoming) ?item WHERE { 
      ?item wdt:P31 wd:Q185441 . 
      ?s ?p ?item . 
      [] wikibase:directClaim ?p 
     } GROUP BY ?item 
    } 
    SERVICE wikibase:label { bd:serviceParam wikibase:language "en" . }. 
} ORDER BY DESC (?incoming) 

Try it!

Все эти показатели являются более или менее коррелированной.

scatterplot matrix

Здесь ниже коэффициенты корреляции этих мер для членов ЕС.

Pearson 
------- 
      outcoming sitelinks incoming pagerank  
outcoming 1.0000 0.6907 0.7416 0.8652 
sitelinks 0.6907 1.0000 0.4314 0.5717 
incoming  0.7416 0.4314 1.0000 0.8978 
pagerank  0.8652 0.5717 0.8978 1.0000 


Spearman 
-------- 
      outcoming sitelinks incoming pagerank 
outcoming 1.0000 0.6869 0.7619 0.8736 
sitelinks 0.6869 1.0000 0.7680 0.8342 
incoming  0.7619 0.7680 1.0000 0.8872 
pagerank  0.8736 0.8342 0.8872 1.0000 


Kendall 
------- 
      outcoming sitelinks incoming pagerank 
outcoming 1.0000 0.4914 0.5661 0.7143 
sitelinks 0.4914 1.0000 0.5764 0.6454 
incoming  0.5661 0.5764 1.0000 0.7249 
pagerank  0.7143 0.6454 0.7249 1.0000 

Смотрите также: