Каков наиболее удобный способ удалить все теги HTML при использовании метода доступа к URL-адресам SAS для чтения веб-страниц?Как удалить HTML из метода доступа к URL-адресам SAS?
ответ
Это должно делать то, что вы хотите. Удаляет все, что находится между <>, включая <> и оставляет только содержимое (aka innerHTML).
Data HTMLData;
filename INDEXIN URL "http://www.zug.com/";
input;
textline = _INFILE_;
/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);
run;
Большое спасибо Warpraptor !! Мне действительно нравится элегантное простое решение в рамках профессиональной среды программирования - не нужно никаких любительских инструментов, таких как Perl. С удаленным HTML Gobbelgook мы остались с такими красавицами, как: Фанатизм заключается в удвоении ваших усилий, когда вы забыли свою цель. Нет никакого лечения от рождения и смерти, кроме как наслаждаться интервалом. Человек морально свободен, когда, полностью владея своим живым человечеством, он судит мир и судит других людей с бескомпромиссной искренностью. –
Joe, воздержитесь от этого. – alamar
Я думаю, что методология заключается не в том, чтобы удалить HTML со страницы, но и определить стандартные шаблоны для данных, которые вы пытаетесь захватить. Это методология типа perl/regular expressions.
Примером могут быть некоторые данные или таблица, в которой появляется столько символов после изображения логотипа. Вы можете написать сценарий, чтобы хранить только данные.
Если вы хотите опубликовать некоторый html, возможно, мы сможем его декодировать.
Я ищу чисто системное решение SAS. Я знаю, что SAS поддерживает регулярные выражения, и мне просто нужен код, поэтому мне не нужно это делать самому, потому что мне не нравится изобретать колеса. HTML-код gobbeltygook может быть любым, что можно сделать с HTML Gobbelgook. Я хочу читать много разных типов веб-страниц и извлекать только контент, а не HTML-код Gobbeltygook. –
Я попытался сделать ваш вопрос более понятным. –
Ты неудачно потерпел неудачу. Я не пытаюсь удалить HTML Gobbeltygoodk из метода доступа к URL-адресам SAS. Я пытаюсь удалить HTML Gobbeltygook из результатов чтения веб-страницы с помощью метода доступа к URL-адресам SAS. Я собираюсь дать вам F + (неудачно провалился). –
Мне нужно было дать вам близкий голос, так что давайте назовем его даже? В следующий раз вы должны попробовать немного сложнее. –