2016-10-19 6 views
0

У меня есть таблица строк, и мне дали задание сделать некоторый свет анализ, как найти шаблоны для полей, какие поля являются взаимоисключающими и т.д.Таблицу базы данных дампа или удаленную работу для анализа?

Мой первоначальный инстинкт должен был сбросить всю таблицу в CSV, поэтому я могу работать с Pandas или подобным, так как я предполагал, что с ними будет работать быстрее и легче. Анализируя, как получить всю таблицу в CSV, коллега настаивал на том, что это чрезмерное, и традиционный подход заключается в том, чтобы работать непосредственно с базой данных Oracle.

Из моего программного обеспечения, я понимаю, что базы данных больше предназначены для хранения состояния больших приложений и меньше для человека, с которым нужно возиться. Каков общий подход для анализа при наличии таких больших таблиц? Что быстрее? Лично я не возражаю против времени, которое требуется для сброса базы данных, но больше о времени, которое требуется для обратной обратной связи при выполнении фактического анализа.

ответ

0

Прямо на базе данных с SQL отлично подходит для любых анализов , когда вы уже знаете, что ищете.

Если вы не знаете, что ищете, и хотите сделать это, например. распознавание образов, попытка сбрасывать и обрабатывать в другом инструменте, вероятно, стоит того.

Также рассмотрите возможность подключения Pandas непосредственно к базе данных Oracle (которая позволяет пропустить данные для сброса), see here for an example.