и batch_size 4, теоретически, когда я вызываю функцию fit, функция будет переходить через все эти входы в каждом nb_epoch?
Да, каждая эпоха итерации над все подготовки образцов
и делает batch_size должны быть 4, чтобы за это время окна, чтобы работать?
Нет, это абсолютно несвязанные вещи. Пакет - это просто подмножество ваших данных обучения, которое используется для вычисления приближения истинного градиента функции стоимости. Большая партия - ближе вы доходите до истинного градиента (и оригинала Gradient Descent), но тренировка замедляется. Ближе к 1 вы получаете - он становится все более и более стохастическим, шумным приближением (и ближе к Стохастический градиентный спуск). Тот факт, что вы сопоставляете размер партии и размерность данных, является просто странным совпадением и не имеет никакого значения.
Позвольте мне поставить это в более Generall обстановке, что вы делаете в градиентного спуска с аддитивной функции потерь (которые нейронные сети обычно используют) происходит против градиента, который
grad_theta 1/N SUM_i=1^N loss(x_i, pred(x_i), y_i|theta) =
= 1/N SUM_i=1^N grad_theta loss(x_i, pred(x_i), y_i|theta)
где loss
некоторая функция потерь над вашим pred
(прогноз) по сравнению с y_i
.
И в scenatio основе пакетной (грубая идея) является то, что вам не нужно идти на все примеры, но вместо некоторого строгого подмножества, как batch = {(x_1, y_1), (x_5, y_5), (x_89, y_89) ... }
и использовать приближение градиента формы
1/|batch| SUM_(x_i, y_i) in batch: grad_theta loss(x_i, pred(x_i), y_i|theta)
As вы можете видеть, что это не связано ни в каком смысле с пространством, где x_i
жить, поэтому нет связи с размерностью ваших данных.