2012-02-20 2 views
1

Я очищаю веб-сайт и пытаюсь вытащить определенные элементы из HTML. В местах я скребковые, есть сценарий теги с кучей информации в них, однако, есть одна часть внутри этих тегов, которые я заинтересован в линии в основном выглядит следующим образом:.Вытягивание текста из гигантского файла HTML с использованием Nokogiri/xpath

'image':'http://ut5.example.com/t/231/3_b_643435.jpg', 

С некоторыми над ним и под ним. Теперь это отличается для каждого источника страницы, за исключением, очевидно, домена и некоторых подпапок, которые хранят изображения.

Как я могу просмотреть источник этой конкретной строки и вырезать только URL? Мне нужно будет использовать регулярные выражения, которые я чувствую, когда URL-адреса являются динамическими.

Метод «gsub» делает что-то похожее на то, что я хочу найти, с его возможностью использовать/regex /. Но я не хочу ничего заменять, я просто хочу найти этот URL-адрес в исходном коде с помощью/regex/и скопировать его.

+0

Вы можете поставить пример того, что это должно быть результатом? Это «образ»: «image.jpg»? – elclanrs

+0

Я хотел бы иметь возможность просто вытащить URL-адрес. Метод «gsub» несколько делает то, что я хочу, чтобы искать, искать /regex/...когда я не хочу ничего заменять, я хочу просто скопировать его в новую строку или что-то еще. – user1015523

+0

Итак, вы просто хотите извлечь «3_b_643435.jpg» из приведенного выше примера и поместить его в переменную, верно? – elclanrs

ответ

1

Согласно вам комментарии, это то, что вы ищете я думаю

var regex = /http.+/; 

Пример http://jsfiddle.net/Km9ZB/

+0

Отлично работает, у меня была настройка регулярных выражений. Я пытался использовать «сканирование», но «матч» отлично работает! Спасибо! – user1015523