У меня есть файл с URL-адресами. Файл выглядит следующим образомНайти общий шаблон среди набора URL-адресов
http://www.example.com/images/1 http://www.example.com/images/2 . . . http://www.example.com/images/2000 http://www.example.org/p/q/r/1/s/t http://www.example.org/p/q/r/2/s/t http://www.example.org/p/q/r/3/s/t . . . http://www.example.org/p/q/r/5000/s/t
и так далее. URL-адреса не сортируются. Я просто разобрался, чтобы объяснить это четко.
Я должен обработать эти URL, таким образом, что если есть одно слово (слово между 2 косой чертой) отличаются от 2 URL, и числа таких случаев составляет> 1000, я заменить это слово на *
К примеру, в выше файл, у меня будет
http://www.example.com/images/* http://www.example.org/p/q/r/*/s/t
размер файла в сотни гигабит. Может ли кто-нибудь помочь мне с этим?
Эти файлы хранятся в S3? – thun
Да. Я даже могу использовать решения, используя Map Reduce. – skjindal93