2017-02-14 9 views
0

я должен извлечь данные из многих сайтов структурированы как этот http://www.firmenmonitor.at/Secure/CompanyDetail.aspx?CID=408053&SID=4af735f7-4eb7-4f8e-a1df-948f6fb66a18&PID=1извлекая данные между тегами

Меня интересует второй 'textModule' дел. Есть три секции:

In der Rolle Aufsichtsrat waren oder sind gemeldet: 
(...) 
In der Rolle Geschäftsführer waren oder sind gemeldet: 
(...) 
In der Rolle Gesellschafter waren oder sind gemeldet: 
(...) 

Я знаю, как извлечь имена и другую информацию, но я хотел бы знать, раздел каждый член является членом. Например:

Köhlmeier Harald - Aufsichtsrat 
Mazzel Josef - Aufsichtsrat 
(...) 
Konstatzky Adolf F. - Geschäftsführer 

Моя проблема заключается в том, что это div имеет очень плоскую структуру и заголовок для каждого раздела просто <h3>. Поэтому я не знаю, как определить, где заканчивается одна секция, а другая начинается. Я не могу показать вам, что я пробовал, пока не знаю, как подойти к нему ... Любые намеки?

ответ

1

Если я правильно понимаю ваш вопрос, вы просто ищете способ разделить три раздела, чтобы вы могли обрабатывать каждый независимо друг от друга и извлекать данные, зная, в каком разделе он принадлежит.

В этом случае вы можете просто использовать тот факт, что точная строка <h3 разделяет разделы. Вы можете просто извлечь второй div, сохранить его как строку с именем, например. second_div и сделать second_div.split("<h3"), чтобы получить объект списка, в котором элементы 1, 2 и 3 (а не 0) содержат html-код в отдельных разделах.

+0

Отлично. Спасибо! Это сработало для меня. – pawelty

 Смежные вопросы

  • Нет связанных вопросов^_^