Я пытаюсь проанализировать html-файл с использованием Python без с использованием любого внешнего модуля. Причина я запуск работы Дженкинс и работаю в некоторых вопросы импорта с LXML и BeautifulSoup (пытались ее решением, и я думаю, что где-то, что я делаю над инженерией, чтобы получить мой сделанный материал)Анализ файла HTML с использованием Python без внешнего модуля
Вход:
<tr class="test">
<td class="test">
<a href="a.html">BA</a>
</td>
<td class="duration">
0.000s
</td>
<td class="zero number">0</td>
<td class="zero number">0</td>
<td class="zero number">0</td>
<td class="passRate">
N/A
</td>
</tr>
<tr class="test">
<td class="test">
<a href="o.html">Aa</a>
</td>
<td class="duration">
0.000s
</td>
<td class="zero number">0</td>
<td class="zero number">0</td>
<td class="zero number">0</td>
<td class="passRate">
N/A
</td>
</tr>
<tr class="test">
<td class="test">
<a href="g.html">VideoAds</a>
</td>
<td class="duration">
0.390s
</td>
<td class="zero number">0</td>
<td class="zero number">0</td>
<td class="zero number">0</td>
<td class="passRate">
N/A
</td>
</tr>
<tr class="suite">
<td colspan="2" class="totalLabel">Total</td>
<td class="zero number">271</td>
<td class="zero number">0</td>
<td class="zero number">3</td>
<td class="passRate suite">
98%
</td>
</tr>
Выход:
Я хочу, чтобы считать, что конкретный блок из т.р. тега с классом «люкс» (проверка на конец), а затем вытащите значения для нулевого номера, нулевого номера, нулевого номера и пакета passRate. Наконец, напечатайте значения.
~~~~~~~~~~~~~~~~~~~~~~~~~~
Например. Ноль число = 271 ...
проходной балл = 98%
~~~~~~~~~~~~~~~~~~~~~~~~~~ Здесь что я пытался с LXML:
tree = parse(HTML_FILE)
tds = tree.xpath("//tr[@class='suite']//td/text()")
val = map(str.strip, tds)
Это работает локально, но я действительно хочу сделать что-то без каких-либо внешних зависимостей. Должен ли я использовать strip() или открыть файл, используя os.path.isFile(). Возможно, я ошибаюсь, но советую/проговори мне, что будет решением для этого.
Как насчет использования stdlib? https://docs.python.org/2/library/htmlparser.html#module-HTMLParser –
Разве это не отдельный модуль? HTMLparser? Раньше у меня не было опыта. Может быть, ты сможешь меня поймать. –
, чтобы получить только один элемент из HTML, вы можете использовать 're' или даже стандартные строковые функции. – furas