对于同一术语,可以看到几个不同的LSTM导数方程!!哪个是对的?

我觉得我要踢水桶了。我一直在尝试研究有关LSTM反向传播的详细信息,并阅读有关方程式的信息,并尝试自己导出它们。到目前为止,我已经看到输出门dO(t)的3(!!)个不同的方程式,它们分别是:

  1. dO(t)= dOut(t)* tanh(state(t))* O(t)(1-O(t)

  2. dO(t)= dOut(next)* tanh(state(next))* O(t)(1-O(t)

  3. dO(t)= dOut(t)* tanh(state(t))

我们可以看到,在最后两个词中第一个和第三个词是不同的,但是第二个词的前两个词是不同的。哪个是正确的,为什么?就我个人而言,如果我从输出中应用链式规则,第三个方程似乎是正确的。什么是O(t)*(1-O(t))?他们为什么在这里?第二个方程为何如此不同?请帮忙!!!

dasiy123zs 回答:对于同一术语,可以看到几个不同的LSTM导数方程!!哪个是对的?

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3161835.html

大家都在问