報酬系(7) ドーパミンニューロンが活動するタイミング

ドーパミンニューロンの活動は、報酬そのもの（つまり「快」そのもの）ではなく、報酬予測（reward prediction）や報酬の予測誤差を表現しているという議論があります。

報酬を与えられ方とドーパミンニューロンの活動には次のような関係性があることがわかっています。

（A）予告なしに報酬（たとえばジュース）が与えられると、ドーパミンニューロンは強く活動します。この結果だけからは、ドーパミンニューロンは報酬に対して反応しているようにも見えます。

（B）しかし、報酬予告を出してから数秒後に報酬を与えるという訓練をくり返すと、ドーパミンニューロンは報酬そのものではなく、報酬予告に対して反応するようになります。その数秒後に報酬が与えられても、ドーパミンニューロンは平常時と同じ程度にしか活動しません。つまり、ドーパミンニューロンの活動のタイミングが報酬予告のときに変化したのです。

さて、報酬予告と実際の報酬の関連性（「報酬予告の数秒後に報酬がもらえる」）を学習したあとに、

（C）報酬予告は与えるが、実際の報酬は与えない、という試行を設けます。すると、ドーパミンニューロンは実際の報酬が与えられるはずのタイミングで活動レベルが通常以下に落ちてしまいます。得られるはずだった報酬がもらえなかったので、報酬の予測と実際の報酬の差である「報酬の予測誤差」が「負」になったことを表しています。

ところで上の内容を実生活に置き換えてたとえると、

（A）は、サプライズのプレゼントをあげると、プレゼントをもらったときにうれしい、

（B）は、「プレゼントをあげるよ」と約束してからプレゼントをあげると、事前予告があったときにうれしい、

（C）は、「プレゼントをあげるよ」と約束したにもかかわらずプレゼントをあげないと、プレゼントがもらえなくて不満である、

ことにそれぞれ対応できそうです。

（相手が喜んでくれるプレゼントであるならば、）サプライズのプレゼントこそ、プレゼントを与えたそのときにもっとも喜んでもらえる方法なのかもしれません。

Schultz, Wolfram. "Predictive reward signal of dopamine neurons." Journal of neurophysiology 80.1 (1998): 1-27.

脳 Brain, No Life（仮）

とあるニューロベンチャー企業の研究員のつぶやきを記録するブログ

報酬系(7) ドーパミンニューロンが活動するタイミング