4

Я использовал модель VGG 16-Layer Caffe для подписи к изображениям, и у меня есть несколько надписей на изображение. Теперь я хочу сгенерировать предложение из этих титров (слов).
Я прочитал в статье LSTM, что я должен удалить слой SoftMax из учебной сети и предоставить вектор свойств 4096 из слоя fc7 непосредственно в LSTM.
Я новичок в материалах LSTM и RNN.
С чего начать? Есть ли какой-либо учебник, показывающий, как генерировать предложение с помощью меток последовательности?Как сгенерировать предложение из вектор-функции или слов?

ответ

3

AFAIK главная ветвь BVLC/caffe еще не поддерживает повторяющуюся архитектуру слоя.

Вы должны потянуть ветвь recurrent от jeffdonahue/caffe. Эта ветка поддерживает RNN и LSTM.
Он также содержит подробный example о том, как создавать подписи к изображениям, полученные с использованием данных MS COCO.