Мы стремимся разработать приложение для отчетов, которое сообщает о данных, хранящихся в большом количестве XML-файлов. ~ 3 000 000 файлов размером от 7 КБ до 5 МБ (каждый файл соответствует той же схеме). Я предполагаю, что будет около 200 ГБ XML. Я рассматриваю несколько XML-баз данных с открытым исходным кодом (Sedna, BaseX и eXist-db), и я не уверен, насколько хорошо эти системы будут масштабироваться, я прочитал сравнение этих трех баз данных here. Именно с этого и возникла моя проблема масштабируемости.Масштабируемость баз данных XML с открытым исходным кодом
Некоторые детали относительно того, что мы хотим сделать: Мы не будем изменять данные в любом из файлов XML, и новые файлы будут добавляться ежедневно. Поскольку мы заинтересованы в представлении отчетов, нам важна производительность, и время, необходимое для добавления и индексации новых файлов, для нас не является высоким приоритетом.
Мне интересно, есть ли у кого-нибудь опыт использования этих систем в сходных масштабах? Я просмотрел BaseX statistics page и посмотрел некоторые довольно большие экземпляры XML, но не упоминал о производительности.
Мы не нуждаемся в продукте с открытым исходным кодом, и система MarkLogic выглядит так, как будто она может соответствовать счету, но мне любопытно, что сделано с продуктами с открытым исходным кодом.
То, что автор не учитывал новые индексы диапазона eXist 2.2, был довольно значительным оговоркой. Я хотел бы, чтобы автор обратился за помощью к списку рассылки eXist; для этого тривиально. Также статья неоднократно противоречива; например, «Когда размер коллекции увеличивается, BaseX и Sedna остаются более или менее постоянными во времени, тогда как BaseX увеличивается линейно во времени» (стр.7). Жаль, что статья не была исправлена. Тем не менее, статья представляет собой довольно строгое исследование эффективности одного пользователя/организации, и все три проекта должны воспринимать его всерьез. – joewiz