我觉得我要踢水桶了。我一直在尝试研究有关LSTM反向传播的详细信息,并阅读有关方程式的信息,并尝试自己导出它们。到目前为止,我已经看到输出门dO(t)的3(!!)个不同的方程式,它们分别是:
-
dO(t)= dOut(t)* tanh(state(t))* O(t)(1-O(t)
-
dO(t)= dOut(next)* tanh(state(next))* O(t)(1-O(t)
-
dO(t)= dOut(t)* tanh(state(t))
我们可以看到,在最后两个词中第一个和第三个词是不同的,但是第二个词的前两个词是不同的。哪个是正确的,为什么?就我个人而言,如果我从输出中应用链式规则,第三个方程似乎是正确的。什么是O(t)*(1-O(t))?他们为什么在这里?第二个方程为何如此不同?请帮忙!!!