я должен извлечь данные из многих сайтов структурированы как этот http://www.firmenmonitor.at/Secure/CompanyDetail.aspx?CID=408053&SID=4af735f7-4eb7-4f8e-a1df-948f6fb66a18&PID=1извлекая данные между тегами
Меня интересует второй 'textModule'
дел. Есть три секции:
In der Rolle Aufsichtsrat waren oder sind gemeldet:
(...)
In der Rolle Geschäftsführer waren oder sind gemeldet:
(...)
In der Rolle Gesellschafter waren oder sind gemeldet:
(...)
Я знаю, как извлечь имена и другую информацию, но я хотел бы знать, раздел каждый член является членом. Например:
Köhlmeier Harald - Aufsichtsrat
Mazzel Josef - Aufsichtsrat
(...)
Konstatzky Adolf F. - Geschäftsführer
Моя проблема заключается в том, что это div
имеет очень плоскую структуру и заголовок для каждого раздела просто <h3>
. Поэтому я не знаю, как определить, где заканчивается одна секция, а другая начинается. Я не могу показать вам, что я пробовал, пока не знаю, как подойти к нему ... Любые намеки?
Отлично. Спасибо! Это сработало для меня. – pawelty