У меня есть сложный файл журнала, который я хочу получить в чистый DF. Формат журнала следующий:чтение журнала с пунктирными линиями в файл данных pandas
===============================================================================
2016/03/28 12:26:45 - Message
-------------------------------------------------------------------------------
2016/03/28 12:26:45 - Message
2016/03/28 12:26:45 - Message
Message
2016/03/28 12:26:45 - Message
2016/03/28 12:26:46 - Message
2016/03/28 12:26:46 - Message
2016/03/28 12:28:30 - Message
2016/03/28 12:28:40 - Message
2016/03/28 12:28:40 - Message
2016/03/28 12:28:40 - Message
-------------------------------------------------------------------------------
2016/03/28 12:28:40 - Message
===============================================================================
Журнал продолжается в приведенном выше шаблоне, моя цель состоит в том, чтобы иметь следующую структуру данных;
Time Text
2016/03/28 12:26:45 Message
Я устал, чтобы разобрать файл файла на «-» и создать Dataframe и удалить пунктирные линии.
import pandas as pd
from pandas.compat import StringIO
clean = open(filename).read().remove('-------------------------------------------------------------------------------', '')
clean2 = open(filename).read().replace('===============================================================================', '')
df = pd.read_csv(filename, sep = "\s*\-", names = ["Time", "Text"], engine = "python")
df.Time = pd.to_datetime(df.Time, format='%d/%m/%y %H:%M:%S.%f')
df.Text = df.Text
Однако я получаю много столбцов NaN, любая помощь приветствуется
Двойные пунктирные линии находятся только в начале файла и в конце файла? – jezrael
Они находятся в начале и в конце каждого раздела, поэтому в файле журнала есть много экземпляров двойных тире файлов, файл журнала следует шаблону, который я указал в сообщении, так что этот шаблон происходит несколько раз в файле @jezrael – ukbaz