Что мы хотим сделать, так это создать локальный репозиторий данных для наших лабораторий для организации, поиска, доступа, каталога, ссылки на наши данные и т. Д. Я чувствую, что CKAN может делать все это; однако я не уверен, как он будет справляться с этими задачами для данных, которые у нас есть (я мог ошибаться, поэтому я спрашиваю).Является ли CKAN способным работать с файлами 100k + и TB данных?
Наша лаборатория закупает много данных для внутреннего использования. Мы хотели бы иметь возможность каталогизировать и организовывать эти данные в нашей группе (возможно, CKAN?), Чтобы люди могли вставлять данные в каталог и извлекать данные и использовать их. В некоторых случаях использование ACL для данных, веб-интерфейс, поиск, просмотр, упорядочивание, добавление, удаление, обновление наборов данных и т. Д. Хотя CKAN выглядит очень подходящим для этого, проблема связана с данными (подробнее поэтому сумма), с которой мы пытаемся справиться.
Мы хотим каталогизировать что-либо из терабайт изображений (200k + изображений), геопространственных данных в различных форматах, твиттер-потоков (TBs данных JSON), файлов дампа базы данных, двоичных данных, моделей машинного обучения и т. Д. Думаю, было бы разумно добавить 100k 64MB JSON-файлы в качестве ресурса в набор данных CKAN, или это так? Мы понимаем, что мы не сможем искать в этих JSON/изображениях/геоданных, что хорошо. Но мы хотели бы получить информацию о том, были ли доступны данные (например, мы ищем «twitter 2015-02-03»), тип поиска метаданных, если хотите. Используя локальное хранилище файлов в CKAN, что произойдет, если пользователь запросит 200 тыс. Изображений? Не перестанет ли система реагировать на эти запросы?
Я видел CKAN, используемый в datahub.io, и подавляющее большинство этого материала представляют собой небольшие CSV-файлы, небольшие файлы размером 2-3 МБ и не более 20 или 30 отдельных файлов в наборе данных.
Итак, CKAN способен делать то, что мы хотим? Если это не предложения по альтернативам?
Редактировать более конкретные вопросы вместо обсуждения:
Я посмотрел вокруг и гугла информации по этой теме, но я не вижу развернутую систему с каким-либо значительным количеством данных.
- Существует ли ограничение на размеры файлов, которые я могу загрузить (например, файл базы данных размером 400 ГБ)?
- Существует ли ограничение на количество файлов, которые я загружаю в качестве ресурса в набор данных в CKAN? (например, я создаю набор данных и загружаю 250 000 64-мегабайтных JSON-файлов, и система может быть использована?)
- Пользовательский интерфейс, похоже, не поддерживает возможность загрузки нескольких файлов в определенное время (например, папка данных в качестве ресурса) , Есть ли инструмент/расширение/плагин, который уже поддерживает эту функциональность?
- a. существуют ли какие-либо ограничения, которые помешали бы мне использовать CKAN API для этого?
Вопросы по SO должны быть конкретной проблемой, а не открытыми обсуждениями –
@DRead Я изменил вопрос на конкретные элементы. –