Я пытаюсь разобрать файл дампа freebase-rdf-2014-01-12-00-00.gz (25 ГБ) с помощью Jena. Было много проблем, о которых сообщала Йена в отношении плохих данных. Пример - 150.0 недопустимые, истинные и ложные значения недействительны Эти проблемы я решил, добавив двойные кавычки вокруг десятичного и истинного/ложного в файл дампа. Однако проблемы все еще остаются reported by Jena.(current - org.apache.jena.riot.RiotException: [line: 161083, col: 110] Illegal object: [MINUS])
Jena parsing issue for freebase RDF dump (Jan 2014)
Есть ли способ предварительно обработать эти данные, чтобы мне не приходилось исправлять каждую проблему по одному. Мои Java Код:
// Open TDB dataset
String directory = "D:/test_dump";
Dataset dataset = TDBFactory.createDataset(directory);
// Assume we want the default model, or we could get a named model here
Model tdb = dataset.getDefaultModel();
// Read the input file - only needs to be done once
String source = "D:/test_dump/fixed-freebase-second-rdf.gz";
FileManager.get().readModel(tdb, source, "N-TRIPLES");
Существует очень недавний вопрос на answer.semanticweb.com об этом, [Дамп FreeBase RDF соответствует спецификации w3 n-triples?] (Http://answers.semanticweb.com/questions/26084/does- заместитель-Freebase РДФ-свалка-соответствует-к-w3-н-троек-спецификации). Данные находятся в Черепахе, а не в N-Triples. –