У меня есть контакт, который испытывает проблемы с SAX при анализе файлов RSS и Atom. По его словам, как будто текст, исходящий из элементов Item, усекается при апострофе или иногда акцентированном персонаже. Кажется, что проблема с кодировкой тоже.Sax parsing and encoding
Я попробовал SAX, и у меня тоже есть усечение, но еще не удалось выкопать. Я был бы признателен за некоторые предложения, если кто-то из них уже справился с этим.
Это код, который используется в ContentHandler:
public void characters(char[], int start, int end) throws SAXException {
//
link = new String(ch, start, end);
Edit: Проблема кодирования может быть связано с хранением информации в виде массива байтов, как я знаю, Java работает в Unicode.
Большинство людей используют SAX, потому что разбор DOM медленный и интенсивный. Если только компромисс заключается в том, что синтаксический анализ SAX становится очень нежелательным, если структура документа, если она сложна, если вы обнаружите, что SAX синтаксический анализ сложный или слишком низкий уровень, vtd-xml может быть лучшим выбором для сочетания лучших характеристик производительности и низкой памяти. –