2015-02-02 5 views
2

Я загрузил freebase-rdf-latest с сайта freebase.com. Я распаковал его, и теперь у меня есть файл 380.7Gb. Как я могу прочитать эти данные? Какую программу вы мне порекомендовали? Спасибо за помощь!Freebase - как использовать freebase-rdf-latest?

+0

Рекомендации по продукту здесь не обсуждаются. –

+0

@SabreTooth mariana не просит «рекомендации продукта», они просят о лучшем способе достижения своей цели. Почему эта проблема для вас? –

ответ

2

Необходимо загрузить данные в трехместный магазин, например Virtuoso. Вы можете посмотреть, как загружать данные в следующие ссылки.

Однако, вы можете быть заинтересованы в других проектах, которые обеспечивают очищенную версию свободного основания предварительно загружены в тройном магазин.

SindiceTech Freebase distribution Freebase данные доступны для полной загрузки, но, как и сегодня, используя его «в целом», но это все просто. Распределение SindiceTech Freebase решает, что, предоставляя все знания Freebase , предварительно загруженные в конкретную базу данных RDF (также называемую triplestore), и оснащены набором инструментов, которые значительно упрощают , чтобы составлять запросы и понимать данные в целом.

:BaseKB: BaseKB - это база знаний RDF, полученная из Freebase, основным источником Графа знаний Google; : BaseKB содержит около пополам столько фактов, сколько дампа Freebase, поскольку он удаляет тривиальные, плохо сформированные и повторяющиеся факты, которые затрудняют обработку. самая последняя версия: BaseKB Gold могут быть загружены через BitTorrent, или, если вы хотите запустить SPARQL запросов к ним, вы можете запустить его в в AWS облако, предварительно загруженным в OpenLink Virtuoso 7.

+0

Спасибо! Вы очень помогли! – mariana

3

Я не соглашусь с @Nandana и скажу, что вы обязательно должны не загрузить его в трехместный магазин для большинства целей. В нем есть тонна избыточности, и даже без избыточности обычно вас интересует лишь небольшая часть.

Кроме того, для большинства приложений вы, вероятно, захотите оставить файл сжатым. Вероятно, вы можете быстрее распаковать его, чем читать несжатую версию из файловой системы. Если вам нужно разбить его для обработки в среде MapReduce, файл (или, по крайней мере, используется) будет представлять собой ряд сжатых сжатых файлов, которые можно разделить, не распаковывая их.

У Nandana есть хорошее предложение по рассмотрению производных данных. Компромисс, который следует учитывать, - это то, как часто они обновляются и насколько прозрачны их конвейер фильтрации/извлечения.

Для простых задач вы можете получить очень далеко с самыми последними данными, используя zgrep, cut и связанные с ними инструменты командной строки Unix.

+0

Помогло ли downvoter добавить комментарий относительно того, почему ответ не считался полезным или по-теме? –

+1

Это было действительно полезно. Спасибо вам всем. Мне нужно 15 репутации, чтобы проголосовать за ответы. – mariana

+0

«Возможно, вы можете быстрее распаковать его, чем читать несжатую версию из файловой системы». - ключевой момент, спасибо! –