2009-06-08 7 views
-5

Каков наиболее удобный способ удалить все теги HTML при использовании метода доступа к URL-адресам SAS для чтения веб-страниц?Как удалить HTML из метода доступа к URL-адресам SAS?

+1

Я попытался сделать ваш вопрос более понятным. –

+0

Ты неудачно потерпел неудачу. Я не пытаюсь удалить HTML Gobbeltygoodk из метода доступа к URL-адресам SAS. Я пытаюсь удалить HTML Gobbeltygook из результатов чтения веб-страницы с помощью метода доступа к URL-адресам SAS. Я собираюсь дать вам F + (неудачно провалился). –

+0

Мне нужно было дать вам близкий голос, так что давайте назовем его даже? В следующий раз вы должны попробовать немного сложнее. –

ответ

4

Это должно делать то, что вы хотите. Удаляет все, что находится между <>, включая <> и оставляет только содержимое (aka innerHTML).

Data HTMLData; 

filename INDEXIN URL "http://www.zug.com/"; 

input; 

textline = _INFILE_; 

/*-- Clear out the HTML text --*/ 
re1 = prxparse("s/<(.|\n)*?>//"); 
call prxchange(re1, -1, textline); 

run; 
+0

Большое спасибо Warpraptor !! Мне действительно нравится элегантное простое решение в рамках профессиональной среды программирования - не нужно никаких любительских инструментов, таких как Perl. С удаленным HTML Gobbelgook мы остались с такими красавицами, как: Фанатизм заключается в удвоении ваших усилий, когда вы забыли свою цель. Нет никакого лечения от рождения и смерти, кроме как наслаждаться интервалом. Человек морально свободен, когда, полностью владея своим живым человечеством, он судит мир и судит других людей с бескомпромиссной искренностью. –

+5

Joe, воздержитесь от этого. – alamar

0

Я думаю, что методология заключается не в том, чтобы удалить HTML со страницы, но и определить стандартные шаблоны для данных, которые вы пытаетесь захватить. Это методология типа perl/regular expressions.

Примером могут быть некоторые данные или таблица, в которой появляется столько символов после изображения логотипа. Вы можете написать сценарий, чтобы хранить только данные.

Если вы хотите опубликовать некоторый html, возможно, мы сможем его декодировать.

+0

Я ищу чисто системное решение SAS. Я знаю, что SAS поддерживает регулярные выражения, и мне просто нужен код, поэтому мне не нужно это делать самому, потому что мне не нравится изобретать колеса. HTML-код gobbeltygook может быть любым, что можно сделать с HTML Gobbelgook. Я хочу читать много разных типов веб-страниц и извлекать только контент, а не HTML-код Gobbeltygook. –