Сплит-строка с запятыми также разделяет амперсанды

В приведенном ниже коде анализируется HTML, проблема разбивается, когда в данных появляются амперсанды.Сплит-строка с запятыми также разделяет амперсанды

from HTMLParser import HTMLParser 

data = '<HTML><meta http-equiv="Pragma" content="no-cache"></head>'\ 
'<body>107,1,236,1000,70,498,NameA NameB & NameC - ActionA ActionB</body></html>' 

class MyHTMLParser(HTMLParser): 
     def handle_data(self, data): 
      print data.split(',') 

parser = MyHTMLParser() 
parser.feed(data)

Выход
Это расщепление «&» вместо только запятые.

['107', '1', '236', '1000', '70', '498', 'NameA NameB '] 
['&'] 
[' NameC - ActionA ActionB']

Благодаря

источник

2012-04-19 Eric Fortis

Это разделение только на запятую. Парсер HTML обрабатывает «&» как отдельный токен. – yak

Одинокий '&' недействителен в разделе PCDATA. –

большое спасибо, ребята –

Ну, я думаю, что это путь,

data2 = data.replace('&', 'and')

источник

2012-04-19 05:07:46

Альтернативное решение, принеси значение в <body> тега и анализировать с помощью data.split(',') с помощью BeautifulSoup или любую библиотеку по вашему выбору ,

источник

2012-04-19 05:44:00 Kracekumar

Сплит-строка с запятыми также разделяет амперсанды

ответ

Смежные вопросы