Предположим, у меня есть питон dataframe следующим образом,Найдите подобные тексты по питона dataframe
data['text']
abc.google.com
d-2667808233512566908.ampproject.net
d-27973032622323999654.ampproject.net
def.google.com
d-28678547673442325000.ampproject.net
i1-j4-20-1-1-13960-2081004232-s.init.cedexis-radar.net
d-29763453703185417167.ampproject.net
poi.google.com
d-3064948553577027059.ampproject.net
i1-io-0-4-1-20431-1341659986-s.init.cedexis-radar.net
d-2914631797784843280.ampproject.net
i1-j1-18-24-1-11326-1053733564-s.init.cedexis-radar.net
Я хочу найти подобное общие тексты и группа его. например, abc.google.com, def.google.com, poi.google.com будет указывать на google.com и т.д.
Требуемый выход,
google.com
ampproject.net
ampproject.net
google.com
ampproject.net
s.init.cedexis-radar.net
ampproject.net
google.com
ampproject.net
s.init.cedexis-radar.net
ampproject.net
s.init.cedexis-radar.net
Это больше похоже на данных когда я могу очистить нежелательные части. Один из способов - вручную проверить и кодировать каждую возможную группу. Но у меня будут миллионы текстов. Итак, есть ли способ/пакет в python для этого?
Извините, что попросил об этом, не пробовав ничего. Я пытался исследовать это без особого успеха. Не знаю, как мне начать. Если кто-нибудь может сообщить мне подход, который нужно принять, это было бы полезно для меня.
Благодаря
спасибо за эту идею. Не могли бы вы помочь мне в получении результатов, как я спросил? Мне сложно изменить этот код на это требование – Observer
@Observer Я обновил свой код. Если это вам поможет, не забудьте запереть и, если он будет отвечать вашим потребностям, вы также можете принять его как ответ. –
Спасибо большое! Он работал – Observer