Мне нужно разобрать некоторый текст из некоторых файлов и разделить ti по частям, зависит от простой текстовой части текста или html.Файл с простым текстом, смешанным с html - split on parts
Допустим, это пример текста
This section should include any considerations for:
<ul>
<li>C</li>
<li>B</li>
<li>A</li>
</ul>
h1. Support Contracts
<p>simple par</p>
И это должно быть расщепляется как то (используется JSON нотации, из-за этого было быстро писать, не имеет значения, какой тип контейнера есть)
[{
part: 1,
text: "This section should include any considerations for:"
},
{
part: 2,
text:"<ul> <li>C</li><li>B</li> <li>A</li></ul>"
},
{
part: 3,
text:"h1. Support Contracts"
},
{
part: 4,
text:"<p>simple par</p>"
}]
Html есть очень простой и все теги гарантированно закрыты (она генерируется программой)
Что способ наиболее быстрый (без использования какой-либо третьей стороной ЛИЭС)? Могу ли я использовать regex здесь для этой задачи?
* он сгенерирован программой *: это не доказательство. –
@ CasimiretHippolyte хорошо, пусть только представьте, что тогда. По крайней мере, такие условия – DanilGholtsman
Почему бы не загрузить как HTML-документ? Затем вытащите соответствующие разделы? Тогда ваш код будет намного более надежным и будет более читаемым. Что вы делаете, это разбор HTML, поэтому лучше всего использовать парсер HTML. – Baldrick