Redundanz

僕の言葉は、人と話をするためにあるんじゃない。

0605

 たくさん昼寝したせいで昨夜は上手く寝付けず結局一睡もしないまま仕事へ。こないだ大きめの案件が終わった関係でとくにやることはなく、論文を読んだり実験をしたりして過ごす。要するに大したことはしていない。

 僕の抱いているニューラルネットにたいする直観は、新たな研究成果によって次々と覆されていく。えっ君ってそんなやつだったの、とびっくりした次の瞬間にはその姿もまた仮初のものであったことが明らかになっている。最近だとAdaptiveな勾配法が実は汎化性能の点でSGDに劣っていることが分かったりとか。これは僕の感覚なのだけどSGDの汎化性能を支えているのは学習時に生じるノイズであって、AdamやらRMSpropやらは収束が滑らかすぎるのだと思う。じっさい逆伝播してきた勾配に適度にノイズを加えると精度が上がるという話はある。僕もちょっと試してみたことがあり、ResNetの最適化においてMomentumSGDと同程度かちょっと良いくらいの精度をAdamで出している。まあ使ったデータセットがCifar10だから一般に成り立つ話かはわからないけれど。ちなみに僕がやったのはこれ(https://arxiv.org/pdf/1511.06807.pdf)で紹介されているのとは別のオリジナル(かどうかは自信がない)のもので、よく覚えてないけどたぶん勾配の絶対値に比例する標準偏差のgaussian noiseを加えるみたいなものだったと思う。

 相変わらず体調はよくない。明日には元気になっていたい。