2016-02-03 7 views
0

У меня есть список, который содержит шаблонную строку, как это:извлечения строк из узорчатого списка строк и преобразовать его в dataFrame в питоне

['"Bandcamp" (2014)\t\t\t\t\ttv-mini-series', 
'"ByMySide" (2012){The Happening (#1.3)}\t\t\t\t\ttwitter-hashtag-in-title', 
'"Elmira" (2014)\t\t\t\t\telmira-new-york', 
'"Elmira" (2014){The Happening (#1.3)}\t\t\tfriend', 
...] 

Теперь я пытаюсь извлечь вложенные строки из каждой строки, и сделать их в кадр данных, как:

Movie Year Keyword 
Bandcamp 2014 tv-mini-series 
ByMySide 2012 twitter-hashtag-in-title 
Elmira 2014 elmira-new-york 
Elmira 2014 friend 
... 

ответ

1

Здесь вы идете:

>>> a 
['"Bandcamp" (2014)\t\t\t\t\ttv-mini-series', '"ByMySide" (2012){The Happening (#1.3)}\t\t\t\t\ttwitter-hashtag-in-title', '"Elmira" (2014)\t\t\t\t\telmira-new-york', '"Elmira" (2014){The Happening (#1.3)}\t\t\tfriend'] 
>>> data = [] 
>>> for x in a: 
...  data.append(re.findall("\"(\w+)\" \((\d+)\).*\t{2,5}(\S+)", x)[0]) 
... 
>>> import pandas as pd 
>>> pd.DataFrame(data, columns=['Movie', 'Year', 'Keyword']) 
     Movie Year     Keyword 
0 Bandcamp 2014   tv-mini-series 
1 ByMySide 2012 twitter-hashtag-in-title 
2 Elmira 2014   elmira-new-york 
3 Elmira 2014     friend  
+0

большое спасибо. Это потрясающе. Кажется, что код не работает над этим: ['"$ # *! My Dad Says" (2010) {Code Ed (# 1.4)} \ t \ tcode', '"# iGOTSHAPES" (2012) {Zander Hardy Feat , Asha Rae - Время ожидания} \ tperiod-in-title ',' "# 1 Single" (2006) \ t \ t \ t \ t \ tnumber-in-title '] Не могли бы вы сообщить мне, в чем проблема с ним? ? Большое спасибо. –