2016-07-21 6 views
0

Насколько я понимаю из документации для Dataproc, ее можно читать данные из BigQuery с помощью pyspark, но есть ли преимущество при запуске kmeans кластеризации на ndarrays с формой (xxxxxxx), говорят, что читают представление файла из CloudStorage, а неЕсть ли преимущества использования BigQuery в качестве источника данных ndarrays для Dataproc при вычислении кластеризации kmeans с использованием python

ответ

1

Если вы не собираетесь делать какие-либо другие манипуляции с вашими данными в BigQuery, то вы абсолютно ничего не получите от хранения ваших данных в BigQuery для этого кейс.

Per https://cloud.google.com/hadoop/bigquery-connector,

Разъем BigQuery для данных Hadoop загрузки в ваш Google Cloud Storage ведре перед запуском задания Hadoop.

Иными словами, соединитель не выполняет предикатное нажатие или иным образом использует BigQuery для вычисления; этот коннектор является просто удобным методом для обеспечения доступа к данным, которые вы уже храните или генерируете в BigQuery.

+0

Ожидаете ли вы увидеть улучшение производительности или иначе получите более масштабируемое решение, включая BigQuery в качестве источника данных? – mobcdi

+0

Нет; фактически наоборот. Ваши данные должны будут экспортироваться из BigQuery в облачное хранилище Google, чтобы быть доступными для Dataproc, поэтому вы добавляете латентность к вашему запросу. – thomaspark