0
Когда я построить такое вычислениеНаны ошибки градиентов в Теано
p_1 = 1/(1 + T.exp(-T.dot(x, (w1-w2)) - (b1-b2)))
w1, w2, b1, b2 являются параметрами. И я построю кросс-энтропию как функцию потерь.
Но когда я беру градиенты
T.grad(loss,[w1, b1, w2, b2])
Все приведенные градиенты нан.
Есть ли возможные причины для этой проблемы? И любое решение?
Спасибо заранее!
Это может быть из-за инициализации весов или некоторых других параметров метапараметра. Вы уверены, что не являются параметрами или p_1 теми, кто является NaN, и из-за этого градиент isNaN тоже? – gntoni