Trillion-row public dataset?

Я выполняю несколько тестов в базе данных, и мне было интересно, есть ли общедоступные наборы данных, содержащие более 1Т строк?Trillion-row public dataset?

Я знаю, что в Google Big Query имеется несколько общедоступных наборов данных, которые представляют собой 100M + (wikipedia, gdelt-events) и 1B + (nyc-tlc) строки, но не могут найти ничего большего. Кто-нибудь знает о наборе данных в 1Т-строке, который можно загрузить или загрузить?

Несколько ссылок ссылки:

источник

2017-02-09 David542

Выполнение большого количества обработки в наборе данных триллиона строк может быть дорогостоящим, особенно если вы не будете писать свои запросы тщательно. Сделайте несколько расчетов, прежде чем начать. –

Есть эталонные таблицы вики. У меня есть самый большой открытый стол, который я видел. Самая большая таблица - 106B строк (6.76TB). Если вы действительно хотели триллион строк, вы могли бы просто запустить ~ 10 * копировать приложения для добавления!

https://bigquery.cloud.google.com/table/bigquery-samples:wikipedia_benchmark.Wiki100B?tab=details

источник

2017-02-09 00:49:19

Не было бы проще просто генерировать набор данных? Несомненно, остается открытым вопрос о том, насколько реалистичны его распределения и коорреляции по стоимости, а также то, как это сильно влияет на измеренные показатели.

И если вы можете предположить, что кластер масштабируется линейно, вы можете просто сравнить с 5% данных и 5% от количества узлов, которые вы ожидаете от производственного кластера. Независимо от размера набора данных вы просто выбираете количество узлов, чтобы они могли выполнять необходимое количество запросов/минуту.

Выполнение резервной копии базы данных этого размера должно быть довольно интересной проблемой, особенно если она постоянно обновляется.

источник

2017-02-12 17:49:24 NikoNyrh

Создание большого количества данных потребует много времени и большой мощности. $$$ –

Он все равно должен быть дешевле, чем переносить его через Интернет и хранить на вторичных дисках, прежде чем хранить его в своей БД, предполагая, что вы не выполняете симуляцию реальной жизни для генерации данных. OTOH, что таблица сравнения в Википедии, кажется, сжимается очень хорошо! – NikoNyrh

Таблица/данные уже находятся в BigQuery. Таким образом, вы не переносите ничего через Интернет или не сохраняете на «вторичных дисках». Вы запускаете все на трубах/инфраструктуре Google, то есть в сети для библейских сетей. –

ответ

Смежные вопросы