Верховный суд Германии публикует an RSS feed of all its decisions. К сожалению, элементы этого RSS-канала, а не ссылки на PDF-файлы решения напрямую, ссылаются на веб-страницу, в которой PDF-файл содержится в iFrame.Использование Yahoo Pipes для извлечения элемента из связанной страницы на странице RSS-канала, превращение результатов в RSS-канал
Веб-страницы структурированы параллельно. Например, в a random RSS feed item's linked web page, относительная ссылка в исходном коде будет выглядеть следующим образом:
<iframe border='0' src='document.py?Gericht=bgh&Art=en&Datum=Aktuell&nr=66132&Frame=4&.pdf' width='744px' height='100%'>Leider kann Ihr Browser keine eingebetteten Frames darstellen. Klicken Sie <a href='document.py?Gericht=bgh&Art=en&Datum=Aktuell&nr=66132&Frame=4&.pdf'>hier</a>, um das gewünschte Dokument zu erhalten.</iframe>
Звенья все относительно папки
http://juris.bundesgerichtshof.de/cgi-bin/rechtsprechung/
Я хочу, чтобы преобразовать этот RSS-канал в RSS в котором ссылка каждого элемента является ссылкой непосредственно на PDF, поэтому в моем примере ссылка на элемент RSS-канала должна стать «http://juris.bundesgerichtshof.de/cgi-bin/rechtsprechung/document.py?Gericht=bgh&Art=en&Datum=Aktuell&nr=66132&Frame=4&.pdf».
Моя идея заключается в том, чтобы использовать Yahoo Pipes для перебора всех пунктов RSS корма, перейдите по ссылке элемента, посмотрите на исходный код веб-страницы и извлечь строку между <iframe border='0' src='
и следующей '
, придерживаться абсолютного путь к папке перед относительным результатом и переназначить это на ссылку элемента. Моя грустная попытка сделать это найдена here. В принципе, я понятия не имею, что ввести в модуль XPath.