2013-11-28 1 views
0

я получил файл, содержащий ссылки Xhtml с несколькими параметрами:саксонской преобразования XML с параметрами URL-адрес

index.jsp?foo=bar&foo2=bar2&foo3=bar3. 

Saxon 9.5 пытается интерпретировать & foo2 как сущность и, очевидно, не удается. Я не могу изменить свой xml (это веб-страница из Интернета), я мог бы предварительно обработать его с помощью некоторого регулярного выражения, но хочу, если это возможно, избегать программирования.

java -jar %SAXON_HOME%\saxon9he.jar -xsl:transfo.xsl -s:pageWeb.xml -o:result.html -dtd:off --recognize-uri-query-parameters:false 

не работает. Возможно ли без изменения xml?

Спасибо

ответ

1

Ну, если вы подаете что-то к XML-парсер, который не очень хорошо сформированный XML, то анализатор будет отвергать его, поэтому есть спецификация. И Саксон просто полагается на парсер XML для обработки своих входных документов и таблиц стилей.

Если у вас есть вход, который не очень хорошо образованный, то вы можете попробовать использовать другой анализатор, как TagSoup или HTML5 parser, вы должны сказать Saxon, чтобы использовать его с помощью опции -x например java -jar %SAXON_HOME%\saxon9he.jar -x:org.ccil.cowan.tagsoup.Parser ... или java -jar %SAXON_HOME%\saxon9he.jar -x:nu.validator.htmlparser.sax.HtmlParser ....

+0

Ах, неправильно прочитал документ. Спасибо за решение парсера. –

 Смежные вопросы

  • Нет связанных вопросов^_^