2017-01-05 14 views
0

Когда я построить такое вычислениеНаны ошибки градиентов в Теано

p_1 = 1/(1 + T.exp(-T.dot(x, (w1-w2)) - (b1-b2))) 

w1, w2, b1, b2 являются параметрами. И я построю кросс-энтропию как функцию потерь.

Но когда я беру градиенты

T.grad(loss,[w1, b1, w2, b2]) 

Все приведенные градиенты нан.

Есть ли возможные причины для этой проблемы? И любое решение?

Спасибо заранее!

+0

Это может быть из-за инициализации весов или некоторых других параметров метапараметра. Вы уверены, что не являются параметрами или p_1 теми, кто является NaN, и из-за этого градиент isNaN тоже? – gntoni

ответ

0

У меня есть решение. В основном численная неустойчивость. Изменив log sigmoid на softplus, эта проблема решена.

 Смежные вопросы

  • Нет связанных вопросов^_^