Хранение XML документов в предварительно разобран двоичном формате

Мое приложение нужно хранить большое количество XML-иерархическую информацию со следующими требованиями:Хранение XML документов в предварительно разобран двоичном формате

Быстро читать
Минимальное потребление памяти
типизированных данных вместо простого текста

Любые предложения по двоичному формату, который выполняет эти цели?

источник

2009-09-06 Tony the Pony

Действительно ли хранилище должно быть двоичным или вы говорите, что, поскольку вы считаете, что двоичный код «явно» более эффективен? XML, хранящийся в виде заархивированных данных, может быть более эффективным, чем многие двоичные форматы (например, стандартная сериализованная Java). – SteveD

Это довольно утверждение ... оно может быть меньше, но я очень сомневаюсь, что это будет быстрее. – skaffman

@Skaffman Ваш комментарий относится к вопросу или предыдущему комментарию? – KLE

Вы не указываете, является ли xml требование к формату, вы только говорите, что оно должно быть иерархическим, как xml.

Без дополнительной информации о типах данных сложно дать вам советы. Итак, вот небольшой список.

b-деревья Есть несколько библиотек, поддерживающих форматы хранения b-дерева в многоязычных языках. они имеют быстрый поиск и являются иерархическими по своей природе.
Протокол-буферы из Google. Компактное хранилище, оптимизированное для отправки по кабелю. Однако не обязательно оптимизирован как формат хранения. Они напечатаны и, вероятно, будут очень хорошо выглядеть как формат хранения.
Форматы текстового редактора. компактный, и в зависимости от формата, выбранного типичным и иерархическим по своей природе.
- YAML (с поддержкой для некоторых сложного набора текста, иерархического, человек читаемого)
- JSON (меньше поддержки типирование, быстрый разборе, иерархического, читаемого)

источник

2009-09-07 00:52:45

Нужно ли другим приложениям читать сохраненные данные или только ваши данные? Нужно ли быть «стандартным» форматом?

Fast Infoset удовлетворяет требованиям (1) и (2), хотя, поскольку это всего лишь двоичное представление XML-модели данных, оно также не типично, как XML. Возможно, это будет достаточно хорошо для ваших целей, хотя в отсутствии чего-либо еще.

источник

2009-09-06 20:58:52 skaffman

В ваших требованиях слишком мало деталей, чтобы давать хорошие предложения. Например, вы можете выбрать свой носитель? Будет ли это файловая система, база данных или что-то еще?

Что означает «минимальное потребление памяти»? Вы работаете на ограниченной платформе? Должны ли вы делиться ресурсами с другими приложениями? Является ли размер 1 ГБ достаточно маленьким, если на вашем компьютере 4 ГБ памяти? Будут ли данные храниться в памяти или только те части, над которыми вы работаете?

Если платформа была Java, я бы начал с ее стандартной сериализации, а затем исследовал пользовательскую сериализацию, если меня не устраивает производительность.

источник

2009-09-06 21:14:04 SteveD

Если формат обсуждается, я бы предложил JSON, а не XML. JSON на самом деле быстрее загружает и пишет, чем стандартный XML.

Подробнее о формате JSON:

http://www.25hoursaday.com/weblog/PermaLink.aspx?guid=060ca7c3-b03f-41aa-937b-c8cba5b7f986 http://www.25hoursaday.com/weblog/PermaLink.aspx?guid=39842a17-781a-45c8-ade5-58286909226b

источник

2009-09-06 21:17:10 yoda

Во-первых, JSON не является заменой XML, он не может представлять структуры той же сложности. Во-вторых, это довольно показатель производительности, который я хотел бы увидеть подкрепленным доказательствами. – skaffman

Id 'хотел бы узнать больше о «структурах с такой же сложностью», с которыми JSOn тоже не справляется. – yoda

XML-атрибуты, например, пространства имен XML для другого. JSON - это просто карта с вложенным ключом. – skaffman

Вы также можете прочитать XML в граф объектов и хранить как Google протокола буферы. Они разработаны, чтобы быть очень эффективными.

источник

2009-09-06 21:20:05 Fortyrunner

объяснения Википедии выпуска: http://en.wikipedia.org/wiki/Binary_XML

Предположительно рекомендуется организация и ее Java и .NET SDK можно скачать с: http://www.agiledelta.com/product_efx.html

xml - чистый текст, но может использоваться для представления сериализованных объектов. Предположим, что ваш сериализатор сериализует ваши объекты в xml.

Вам не следует пытаться преобразовывать объекты в двоичные потоки, потому что вам придется решать проблему endian (http://en.wikipedia.org/wiki/Endian) и проблемы с представлением данных. Однако, если вы настаиваете, вам понадобится использовать XDR (http://en.wikipedia.org/wiki/External_Data_Representation) для нейтральности своей архитектуры данных.

В противном случае вы должны сериализовать свои объекты в XML с помощью стандартных сериализаторов, а затем преобразовать xml в двоичный/компактный xml из-за доступности библиотек и sdks. И затем десериализуем путем декомпозиции из двоичного xml.

источник

2009-09-07 01:25:35

Хранение XML документов в предварительно разобран двоичном формате

ответ

Смежные вопросы