Я бы хотел использовать RegEx для анализа корневого домена заданного URL-адреса ввода. Я уже знаю, что там нет RegEx, который не может быть «сломан» с учетом соответствующего URL-адреса ввода, поэтому я хотел бы ограничить использование данного RegEx в списке данных TLD (если это возможно). Вот пример:Исследуйте корневой домен с помощью RegEx и предопределенного списка TLD
Допустим, у меня есть входной файл и будет запускать каждый URL-адрес в файле через регулярное выражение по одному за раз. Здесь входной файл:
www.google.co.uk
www.google.co.uk/something
www.google.com/
www.google.com/something
google.com/
google.com/something
subdomain.google.com/
subdomain.google.com/something
www.subdomain.google.com/
www.google.net/
www.google.net/something
google.net/
Конечный результат должен быть таким:
google.co.uk
google.co.uk
google.com
google.com
google.com
google.com
google.com
google.com
google.com
google.com
google.com
google.com
Главное, я хотел бы, хотя, для регулярных выражений для синтаксического анализа на основе следующих:
Найти ДВУ в данном URL из списка заданных доменов верхнего уровня (например:
(co.uk|com|net|edu|gov|etc|etc|etc)
Если один из данного TL D's найден ТОГДА матч & разобрать все слева от (и в том числе), что TLD, который он нашел, UP до тех пор, пока он не достигнет начала линии ИЛИ не достигнет другого ».
Если можно написать регулярное выражение, которое соответствует на основе приведенного описания «псевдокода», оно должно анализировать входные данные образца в точности так, как показано.
Какие рамки вы используете? Многие из них создали инструменты для работы с URL-адресами. –
Для всех целей и целей достаточно сказать, что я застрял с использованием чистого регулярного выражения. Представьте, что вам нужно было использовать PHP preg_match вместе с регулярным выражением, чтобы делать то, что я описал выше, и вы о том, где я нахожусь. – Learning