Redundanz

僕の言葉は、人と話をするためにあるんじゃない。

1026

 強化学習では長期的な報酬の最大化の困難さが問題になっているけれども、人間でも同じことが言えるはずである。つまり報酬はできるだけ短いタイムスパンで明確に与えた方がよい。先日久しぶりにタイピングゲームをやっていてそれを実感した。ためしに細かい目標を設定してそれをクリアできるか否かのみに注目し練習してみると、わずか数回の試行のうちに、今までvarianceの大きかった運指がみるみる安定しはじめたのである。目標を設定することの価値を今まで小さく見積もっていたところがあり、そうした考えを改めるきっかけになった。

 思うに、学習というプロセスは基本的に短期的に行われる。誤差逆伝播法を行うためにはインプットを保持しておく必要があるからだ(幾つかの理由から大脳では誤差逆伝播は行われていないと言われているけれど、バイト先の上司(彼は元理研BSIの研究員である)が大脳皮質の6層構造はbackpropを実現するために存在しているという(ちょっとトンデモな)仮説を提示しており、僕は割とそれを信じている)。だからある認知-行動の結果が良いものであるか悪いものであるかという教師信号はできるだけ即座に与えられた方が良い。依存的行動はまさにそのように形成される。また報酬はできるだけ明確であるべきだ。これはやってみた実感なのだけれど、タイピングの場合はスコアタイムよりも正確さの方が良い。おそらくタイムは運に依存する要素が大きいからだと思う。できるだけコントローラブルなものに対してはっきりした目標を設定すること、そうしてはじめて脳は「なにが良かったのか/悪かったのか」を理解することができる、ということなのだと思う。

 問題は長期的な行動戦略の学習はどのように行われるのかということだけど、これも結局は短期的学習の枠組みの上で行われるのだろうと僕は考えている。たとえばある行動がしばらく後で悪手であったと分かったとする。この時点ではその人の行動政策関数はアップデートされない。このとき行われるのは、この行動は悪手であるという観念連合の形成である。実際に政策関数が更新されるのは、その人が次にその悪手を選択したとき(つまり失敗したとき)である。しまった、というネガティブな報酬がまだ脳内に保持されている行動評価に影響する。必要なのはその行動を行う直前あるいは直後にそれが悪手であることを思い出すことであり、反省のない人が、つまり自分の行動を観念化して評価することをしない人物(つまり僕みたいな人)が同じ失敗を繰り返すのは、要は本質的な学習がちっとも行われていないからなのだろう。「あの時のあの選択はまずかった」としばらく経ってから思い返すのでは、人は進歩しないのである。

 目標を立てて練習することの重要性はよく言われることだし、何事につけて上達の早い人達というのはそういうプロセスを知ってか知らずか踏んでいる人たちなんだと思う。ただ僕はなにをやるにつけて理由付けを必要とするタイプの人間なので、動機づけとしてこういう仮説を立ててみた。あながち的外れでもないんじゃないかと思う。

 二年前と比べて、僕の視界はずっと鮮やかになったと思う。それはおそらく、鮮やかな視界を「良いもの」として意識化したことによるのだろう。適切な段階を踏めば一次視覚野だって再トレーニング可能だというのが僕の感覚である。より良い局所解を目指して歩いてゆきたいと思う。


 経験が可能であるためには経験に先んじてアプリオリな直観形式が必要であるとカントは考えたけれども、時空間という形式もまた学習可能なんじゃないかなと計算機を見ていると思う。世界の自由度を効率よく表現しようとしたら時空間という特徴量が得られました、みたいな。その表現の効率性はおそらく身体に規定されているから、そういう意味では先験的と言って良い気もするけど、でもまあたんにそれだけだよねとも思う。そしてまたその身体というのも、熱死に向かう宇宙の歴史の中に生じた偏りの泡沫にすぎないわけで。ところで物理学には詳しくないからこれはただの門外漢の妄想なんだけれども、世界というのは連続したひとつのエネルギーなんじゃないかという気がしている。atomは独立した実在ではなく、エネルギー最小化のひとつの解として存在するのにすぎないのではないか。というか波動関数が云々とかいっていたのはつまりそういうことだったのかな。エネルギーが先か、物質が先か。式の上ではどっちだって同じことなのだろうけれども、〈私〉の不思議さに僕が納得するためには、前者でなくてはならないような気がする。マッハ、あるいはパースもそういうふうに考えていたのではないか。もちろんこれらも「書けただけ」なのだけどもしかし。いつかちゃんと物理学を勉強したいですね。でもそのいつかは決してこないだろうという予感もある。僕はめんどくさがりですからー。