2015-05-29 7 views
0

Недавно я установил RDFLib для работы с данными RDF. Я хочу, чтобы извлечь данные RDF из любой веб-страницы с данными, не RDF/RDF, как Virtuoso тунеядецИспользование RDFLib для извлечения данных без RDF в виде данных RDF с веб-страниц

[как эта ссылка] (http://linkeddata.uriburner.com/about/html/http/www.slideshare.net/kleinerperkins/internet-trends-v1)

и сохранить в качестве N-троек (нт) или N3/Формат черепахи (как и в параметрах в нижнем колонтитуле ссылки). Я получаю предупреждение и ошибки, если я выполняю

g.parse("http://www.slideshare.net/kleinerperkins/internet-trends-v1.html",format="n3") 

Также есть встроенные функциональные возможности для онтологий отображения с RDFLib?

+0

Можете ли вы уточнить, что вы имеете в виду под «функциональностью для отображения онтологий»? –

ответ

0

Я получаю предупреждения и ошибки, если я выполняю

g.parse("http://www.slideshare.net/kleinerperkins/internet-trends-v1.html",format="n3") 

Это на самом деле не удивительно, так как вы, по сути с просьбой разобрать страницу HTML с n3 анализатором.

Вы можете запустить

g.parse("http://www.slideshare.net/kleinerperkins/internet-trends-v1.html", format="html") 

, но это, вероятно, не то, что вы хотите либо. RDFLib может работать с RDF, встроенным в HTML (например, RDFa или microdata), и он также может извлекать из «HTML» общий «RDF общего назначения», но результаты сильно отличаются от того, что вы получаете от uriburner. Причина в том, что в нем используется пользовательский виджет Virtuoso Sponger для слайд-шоу, который предназначен для извлечения гораздо более полезной информации из HTML-слайдов. Если вы хотите использовать те знания, которые были введены в специальный тунеядец, вы можете запросить страницу «через» uriburner путем анализа версии RDF от uriburner (ссылка может быть найдена на дне the page): How to find the link

g.parse(
    'http://linkeddata.uriburner.com/sparql?default-graph-uri=http%3A%2F%2Fwww.slideshare.net%2Fkleinerperkins%2Finternet-trends-v1&query=DESCRIBE%20%3Chttp%3A%2F%2Flinkeddata.uriburner.com%2Fabout%2Fid%2Fentity%2Fhttp%2Fwww.slideshare.net%2Fkleinerperkins%2Finternet-trends-v1%3E&output=text%2Frdf%2Bn3', 
    format='n3' 
) 
+0

Это здорово, спасибо @Hees. Также у вас есть представление о моем втором вопросе, о онтологии? –

+0

Как уже упоминалось в комментарии к вашему вопросу, мне совершенно непонятно, какую функциональность вы ищете. RDFLib (как следует из названия) в основном касается работы с RDF. –

+0

@ Ей кажется, что я могу получить то, что хочу, благодаря вашей линии g.parse. 1. Не могли бы вы объяснить, как вы создали эту ссылку, например, после части sparql, эта ссылка слишком длинная, в то время как начальная ссылка просто содержала kleinerperkins/internet-trends-v1.html. 2. Также, если мне нужны данные в виде xml, я попытался написать format = 'n3', но получил несколько ошибок, поэтому, если мне нужно в XML-формате (в основном, чтобы получить теги), как мне это сделать? –