Документ Actor Mimic рассказывает о реализации процедуры маскирования действий. ЦитируюКак реализовать маскирование действия?
Во время воспроизведения определенной игры, мы маскировать выходы действий АНМА, которые не являются допустимыми для этой игры и принять SoftMax только над подмножеством действительных действий
Кто-нибудь есть идея о том, как это действие может быть реализовано в Tensorflow? В частности, как можно принять softmax только по определенному подмножеству действий?