0127 - Redundanz

　Deep Q Networkをトレーニングしていて気付いたことだけれど、Q関数をニューラルネットで近似したこの学習器は負の報酬を適切に学習できない。というのも、学習が一定以上進むと、負の報酬を得ることがなくなるために、ストックされている経験の中に失敗体験がなくなってしまって、失敗を避けるような学習圧が生じなくなってしまうから。そんなわけで単純なDQNはいくら学習が進もうと一定割合で失敗し続ける。これは為替取引などできるだけミスしてほしくない課題おいては望ましくない特徴である。このデモなどでも同様の状況が起こっているぽい。ふーむ。人工知能に適切に「トラウマ」を植え付ける必要があるようだ。