Я пытаюсь создать свои собственные данные обучения для модели TextSum. Насколько я понимаю, мне нужно поместить мои статьи и рефераты в двоичный файл (в TFRecords). Однако я не могу создать свои собственные данные обучения из сырых текстовых файлов. Я не понимаю, формат очень хорошо, так что я пытаюсь создать очень простой двоичный файл, используя следующий код:Tensorflow - модель TextSum: как создать свои собственные данные обучения
files = os.listdir(path)
writer = tf.python_io.TFRecordWriter("test_data")
for i, file in enumerate(files):
content = open(os.path.join(path, file), "r").read()
example = tf.train.Example(
features = tf.train.Features(
feature = {
'content': tf.train.Feature(bytes_list=tf.train.BytesList(value=[content]))
}
)
)
serialized = example.SerializeToString()
writer.write(serialized)
И я пытаюсь использовать следующий код, чтобы считывать значение этого test_data файла
reader = open("test_data", 'rb')
len_bytes = reader.read(8)
str_len = struct.unpack('q', len_bytes)[0]
example_str = struct.unpack('%ds' % str_len, reader.read(str_len))[0]
example_pb2.Example.FromString(example_str)
Но я всегда получаю следующее сообщение об ошибке:
File "dailymail_corpus_to_tfrecords.py", line 34, in check_file
example_pb2.Example.FromString(example_str)
File "/home/s1510032/anaconda2/lib/python2.7/site-packages/google/protobuf/internal/python_message.py", line 770, in FromString
message.MergeFromString(s)
File "/home/s1510032/anaconda2/lib/python2.7/site-packages/google/protobuf/internal/python_message.py", line 1091, in MergeFromString
if self._InternalParse(serialized, 0, length) != length:
File "/home/s1510032/anaconda2/lib/python2.7/site-packages/google/protobuf/internal/python_message.py", line 1117, in InternalParse
new_pos = local_SkipField(buffer, new_pos, end, tag_bytes)
File "/home/s1510032/anaconda2/lib/python2.7/site-packages/google/protobuf/internal/decoder.py", line 850, in SkipField
return WIRETYPE_TO_SKIPPER[wire_type](buffer, pos, end)
File "/home/s1510032/anaconda2/lib/python2.7/site-packages/google/protobuf/internal/decoder.py", line 791, in _SkipLengthDelimited
raise _DecodeError('Truncated message.')
google.protobuf.message.DecodeError: Truncated message.
Я понятия не имею, что это неправильно. Пожалуйста, дайте мне знать, если у вас есть предложения по решению этой проблемы.
каких операционная система у вас это работает на? OSX 11 Я сталкиваюсь с проблемами прежде чем я даже доберусь сюда. Мне пришлось модифицировать метод «Train», поэтому супервизор будет ждать остановки потоков. – Jordan
Я использую ОС OSX. Я также попытался запустить его в Unix, и он работал нормально. Но в моем решении есть небольшая ошибка, мы должны использовать 'reader.read (4)', чтобы пропустить 4 байта в 'data.py' вместо использования' seek (12) '. Я собираюсь обновить свой пост –