2016-10-27から1日間の記事一覧

1026

強化学習では長期的な報酬の最大化の困難さが問題になっているけれども、人間でも同じことが言えるはずである。つまり報酬はできるだけ短いタイムスパンで明確に与えた方がよい。先日久しぶりにタイピングゲームをやっていてそれを実感した。ためしに細かい…