Насколько я понимаю из документации для Dataproc, ее можно читать данные из BigQuery с помощью pyspark, но есть ли преимущество при запуске kmeans кластеризации на ndarrays с формой (xxxxxxx), говорят, что читают представление файла из CloudStorage, а неЕсть ли преимущества использования BigQuery в качестве источника данных ndarrays для Dataproc при вычислении кластеризации kmeans с использованием python
0
A
ответ
1
Если вы не собираетесь делать какие-либо другие манипуляции с вашими данными в BigQuery, то вы абсолютно ничего не получите от хранения ваших данных в BigQuery для этого кейс.
Per https://cloud.google.com/hadoop/bigquery-connector,
Разъем BigQuery для данных Hadoop загрузки в ваш Google Cloud Storage ведре перед запуском задания Hadoop.
Иными словами, соединитель не выполняет предикатное нажатие или иным образом использует BigQuery для вычисления; этот коннектор является просто удобным методом для обеспечения доступа к данным, которые вы уже храните или генерируете в BigQuery.
Ожидаете ли вы увидеть улучшение производительности или иначе получите более масштабируемое решение, включая BigQuery в качестве источника данных? – mobcdi
Нет; фактически наоборот. Ваши данные должны будут экспортироваться из BigQuery в облачное хранилище Google, чтобы быть доступными для Dataproc, поэтому вы добавляете латентность к вашему запросу. – thomaspark