Deep Q Networkをトレーニングしていて気付いたことだけれど、Q関数をニューラルネットで近似したこの学習器は負の報酬を適切に学習できない。というのも、学習が一定以上進むと、負の報酬を得ることがなくなるために、ストックされている経験の中に失敗体験…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。