Я работаю с большим количеством файлов (~ 4 гб), которые все содержат от 1 до 100 записей в следующем формате (между двумя *** это одна записи):Сценарий, извлекающий информацию из .txt в .csv для использования в Pandas
***
Type:status
Origin: @z_rose yes
Text: yes
URL:
ID: 95482459084427264
Time: Mon Jul 25 08:16:06 CDT 2011
RetCount: 0
Favorite: false
MentionedEntities: 20776334
Hashtags:
***
***
Type:status
Origin: @aaronesilvers text
Text: text
URL:
ID: 95481610861953024
Time: Mon Jul 25 08:12:44 CDT 2011
RetCount: 0
Favorite: false
MentionedEntities: 2226621
Hashtags:
***
***
Type:status
Origin: @z_rose text
Text: text and stuff
URL:
ID: 95480980026040320
Time: Mon Jul 25 08:10:14 CDT 2011
RetCount: 0
Favorite: false
MentionedEntities: 20776334
Hashtags:
***
Теперь я хочу, чтобы как-то импортировать их в панд для массового анализа, но, очевидно, я должен был бы преобразовать это в формат Панда может справиться. Поэтому я хочу, чтобы написать сценарий, который преобразует выше в .csv ищет что-то вроде этого (Пользователь название файла):
User Type Origin Text URL ID Time RetCount Favorite MentionedEntities Hashtags
4012987 status @z_rose yes yes Null 95482459084427264 Mon Jul 25 08:16:06 CDT 2011 0 false 20776334 Null
4012987 status @aaronsilvers text text Null 95481610861953024 Mon Jul 25 08:12:44 CDT 2011 0 false 2226621 Null
`
(Извините за форматирование, но вы получите идею) Я не знаю, с чего начать, потому что Im очень новичок в написании языков, какой язык сценариев подходит для этой задачи? Я знаю о некоторых языках сценариев, но не знаком с их ограничениями и предпочитаю не тратить часы на изучение одного, чтобы узнать, что это невозможно. И не могли бы вы дать мне толчок в правильном направлении?
Заранее благодарен!
Где «Пользователь» взялся? Является ли это именем файла, содержащего данные для этого пользователя? –
Я снимаю свой вопрос. Пропущенная часть вашего ответа. –