2010-08-23 3 views
1

Введение:
Я BI наркоман и хотел бы разработать проект для бурения вниз данных Википедии.
Я бы написал сценарии для извлечения данных из dbpedia (возможно, начиная с статей людей) и загрузил их в таблицу людей.Business Intelligence (BI) по данным Википедии

Мой вопрос:
Кто-нибудь сделал это раньше? Даже лучше, есть ли сообщество, посвященное этому?
Если это сценарии где-то, я бы скорее внес свой вклад в них, чем переписать их.

Только один пример:
В кубе OLAP людей, я могу сверлить-вниз по имени, выберите Drill-Through «Реймс», проверьте, в каких областях используются это название, то для всех областей сверла о том, где это имя популярно для девочек и где оно популярно для мальчиков. Для каждого из них я могу развернуть время, чтобы увидеть тенденции. Вы не можете делать такого рода расследование без инструмента BI, или это займет несколько дней вместо секунд.

+0

Что вы хотите «получить» с данными Википедии? BI обычно связан с вашими бизнес-данными. – tszming

+0

@tszmiong: Обновлено с помощью примера –

ответ

1

Отъезд Mahout, который является распределенной библиотекой обучения компьютера. Один из примеров использует дамп википедии

https://cwiki.apache.org/MAHOUT/wikipedia-bayes-example.html http://mahout.apache.org

Я не знаком с точными деталями бизнес-аналитики, однако машинное обучение идет о поиске соответствующих моделей и кластеризацию информации вместе. По крайней мере, это должно привести пример загрузки wiki в память и выполнения простых и не простых вещей с данными.

+0

Если мне нужно загрузить данные Википедии, я сделаю это через dbpedia. Они выполнили всю работу по разбору и предоставили удобные наборы данных, готовые к использованию. См. Предварительный просмотр по адресу http://downloads.dbpedia.org/preview.php?file=3.5.1_sl_en_sl_persondata_en.nt.bz2 –

0

Вы можете настроить сервер virtuoso (есть открытая версия источника) и загрузите dbpedia data sets в локальной машине и использовать виртуоз как «SQL DB» с SPARQL (он имеет JDBC интерфейс)

от вашего Например, вы можете загружать только данные «ontology infobox *» и «raw infobox *»

+0

Я хочу сделать бизнес-аналитику, что означает свертывание куба OLAP и запросы MDX, поэтому SPARQL не будет Помогите. Virtuoso не является сервером Business Intelligence. Нужен сервер, такой как Pentaho или Talend, которые предназначены для BI. –

+0

вы могли бы объединить виртуоз и сервер BI для чтения с первого и подать на второй с помощью java/.net и избежать тайм-аута dbpedia. – jimkont

0

Вы хотите, чтобы для этого использовался OLAP-сервер с открытым кодом?

Вам нужно настроить БД для ваших наборов данных или, скорее, использовать файлы? Мы (на www.icCube.com) не нуждаемся в БД для настройки наших кубов.

Насколько велики ваши наборы данных?

+0

Действительно, такой проект, скорее всего, будет использовать сервер OLAP с открытым исходным кодом и базу данных. Может быть, Pentaho + MySQL. Я не знал, что вы можете делать OLAP только с файлами, а не с базой данных. Я предполагаю, что это означает какую-то базу данных в памяти?Объем данных невелик по сравнению с другими проектами BI. Кстати, мой вопрос: «Кто-нибудь делал BI по данным WP раньше?» –

+0

Да, наши кубы хранятся в базе данных в памяти. –

 Смежные вопросы

  • Нет связанных вопросов^_^