У меня есть таблица строк, и мне дали задание сделать некоторый свет анализ, как найти шаблоны для полей, какие поля являются взаимоисключающими и т.д.Таблицу базы данных дампа или удаленную работу для анализа?
Мой первоначальный инстинкт должен был сбросить всю таблицу в CSV, поэтому я могу работать с Pandas или подобным, так как я предполагал, что с ними будет работать быстрее и легче. Анализируя, как получить всю таблицу в CSV, коллега настаивал на том, что это чрезмерное, и традиционный подход заключается в том, чтобы работать непосредственно с базой данных Oracle.
Из моего программного обеспечения, я понимаю, что базы данных больше предназначены для хранения состояния больших приложений и меньше для человека, с которым нужно возиться. Каков общий подход для анализа при наличии таких больших таблиц? Что быстрее? Лично я не возражаю против времени, которое требуется для сброса базы данных, но больше о времени, которое требуется для обратной обратной связи при выполнении фактического анализа.