Я пытаюсь очистить текст из html-файла, однако мне нужно два типа текста, которые отличаются друг от друга термином (contextref
) в своих тегах, например :BeautifulSoup найти текст через 2 термина в теге html - Python 3
1) <ix:nonfraction contextref="cfwd_30_04_2016" name="ns5:TangibleFixedAssets" unitref="GBP" decimals="0" format="ixt2:numdotdecimal" scale="0" xmlns:ix="http://www.xbrl.org/2008/inlineXBRL">180,649</ix:nonfraction>
2) <ix:nonfraction contextref="cfwd_30_04_2015" name="ns5:TangibleFixedAssets" unitref="GBP" decimals="0" format="ixt2:numdotdecimal" scale="0" xmlns:ix="http://www.xbrl.org/2008/inlineXBRL">200,395</ix:nonfraction>
на данный момент мой код, чтобы найти текст является: var1=(soup.find('ix:nonfraction',{'name':'uk-gaap:{}'.format(variable)}).text)
, который для указанных выше Привести примеры: 180,649.
Для меня, чтобы получить оба значения, мне понадобится другая переменная, чтобы включить другой термин вместе с name
, (будучи contextref
). Ive играл с различными комбинациями, но не мог заставить его работать.
Любая помощь будет здорово, спасибо
это код xml? и вывести нужный результат. –
Нет, файлы все '.html' Идеальный выход был бы для' var1' для включения текстового файла из первого тега = 180 649 и 'var2' для второго = 200,395. Возможно, стоит отметить, что эти два тега не находятся под одним и тем же заголовком – reuben