読者です 読者をやめる 読者になる 読者になる

Redundanz

僕の言葉は、人と話をするためにあるんじゃない。

0214

 すべて思想というものは自分を騙すためにあるのだ、という思想。言語を手にして以来、われわれは言葉と現実のギャップを埋めようと躍起になっている。だがそのギャップとはそもそも言語に内在していたのではないか?「メタ」という概念の功罪。

 悟りとは、「メタ」など存在しないことを見て取ることだ、といえるかもしれない、とか。

 Faster-RCNNが高精度で物体認識できる理由を考えていた。一般にCNNは平行移動には強いが大きさの変化にはそれほど強くない。というのも、Kernelの大きさが固定されているから。人間にも同じ問題は起こっているように思う。これに対して人間がどのように対応しているかというと、視線を移動させて対象全体を走査し、最終的にそれがなんであるかを判断する。ところで、Faster-RCNNの目玉であるRegion Proposal Netは、獲得した特徴量から、その特徴を含む対象全体の領域を推測している。これが視線の移動に対応している、というのが僕の理解である。たとえば手がここにあるとき体全体はこの辺だろうと推測し、その領域を切り出してRoI Poolingすることで、認識対象のサイズを一定にできる上に、小さい特徴から全体を予測するために、CNNのFully Connectではないことに起因する問題を回避している。それで思ったのだけれど、領域推測を多重にしてみてはどうだろう。RPNによって切り出された領域をもとにさらに対象領域の推測を行い、それをもとに認識をする。Faster-RCNNではAnchorを複数にすることによって領域推定の冗長性を増している(それによってたとえばある位置に手があるときの身体全体の位置を複数予測することになる)が、このように一度予測した領域を再度修正するということを行うならば、そのような手間を省くことができるのではないか、という発想である。うまくいくかどうかは知らない。

 言語的理解→身体的慣れの順序で学ぶ人と、その逆で学ぶ人がいて、僕はたぶん後者だ、ということを考えていました。前者が苦手なのは完璧主義者だからか。