Я очищаю веб-сайт и пытаюсь вытащить определенные элементы из HTML. В местах я скребковые, есть сценарий теги с кучей информации в них, однако, есть одна часть внутри этих тегов, которые я заинтересован в линии в основном выглядит следующим образом:.Вытягивание текста из гигантского файла HTML с использованием Nokogiri/xpath
'image':'http://ut5.example.com/t/231/3_b_643435.jpg',
С некоторыми над ним и под ним. Теперь это отличается для каждого источника страницы, за исключением, очевидно, домена и некоторых подпапок, которые хранят изображения.
Как я могу просмотреть источник этой конкретной строки и вырезать только URL? Мне нужно будет использовать регулярные выражения, которые я чувствую, когда URL-адреса являются динамическими.
Метод «gsub» делает что-то похожее на то, что я хочу найти, с его возможностью использовать/regex /. Но я не хочу ничего заменять, я просто хочу найти этот URL-адрес в исходном коде с помощью/regex/и скопировать его.
Вы можете поставить пример того, что это должно быть результатом? Это «образ»: «image.jpg»? – elclanrs
Я хотел бы иметь возможность просто вытащить URL-адрес. Метод «gsub» несколько делает то, что я хочу, чтобы искать, искать /regex/...когда я не хочу ничего заменять, я хочу просто скопировать его в новую строку или что-то еще. – user1015523
Итак, вы просто хотите извлечь «3_b_643435.jpg» из приведенного выше примера и поместить его в переменную, верно? – elclanrs