[Neuroeconomics]Session 4: 보상 프로세스

Author

Irealist

Date

2020-07-07 15:45

Views

565

하버드 여름학기의 "Neuroinvesting: Neuroscience and Financial Decision Making" 수업을 따라가면서 공부하는 자료를 정리하는 시리즈입니다. 본 수업의 주 교과서는 Glimcher, P. W., & Fehr, E. (Eds.). (2013). Neuroeconomics: Decision making and the brain. Academic Press. 입니다.

1. 학습에 대하여

인지과학에서의 강화학습(Reinforcement Learning)은 보상을 얻거나 벌을 피하기 위해 시행착오를 거쳐서 선택에 대한 학습을 하는 것입니다. 이 분야는 뇌 midbrain의 dopaminergic neuron을 위주로 연구가 진행되고 있습니다.

먼저, classical conditioning, 즉 선택을 동반하지 않는 학습부터 알아봅니다. 유명한 파블로프는, 개에게 음식을 줄 때마다 종소리를 울렸고, 이후에는 종소리만 울려도 개가 침을 흘린다는 것을 알아냈습니다. 이는 동물들이 어떻게 경험을 통해 보상을 학습하게 되는지를 보여줍니다. 예측 오류(prediction error)는 실제 경험하는 보상과, 이전 경험을 통해 예측한 보상의 차이를 말합니다. 이 예측 오류가 클 경우에는 예측을 업데이트할 필요성이 생깁니다.

만약 두 가지의 자극(stimuli), 예를 들어 종소리와 불빛에 동시에 노출이 되는 경우는 어떻게 될까요? Rescorla-Wagner 모델에 따르면 이전의 학습(종소리)은 새로운 학습(불빛)을 저해할 수 있습니다. 종소리에 학습된 개에게, 이제는 종소리와 불빛을 동시에 보여주면서 음식을 줍니다. 그러다 종소리없이 불빛만 줄 경우, 개의 침의 양은 줄어듭니다. 이 결과는 어떤 보상을 설명하기 위해, 자극들이 서로 상호 작용을 하거나 경쟁을 한다는 것을 보여줍니다. 따라서 이러한 저해 효과는 학습이 예측 오류를 따라 진행된다는 결론을 도출하게 해줍니다.

만약 개들이 두 가지의 자극에 순차적 노출된다면 어떻게 될까요? 예를 들어, 클릭 소리가 난 후 종소리가 들리는 경우입니다. 이 경우, 클릭소리에 침을 흘리게 됩니다. 이를 second-order conditioning 혹은 temporal-difference learning이라 합니다.

2. Dopamine과 striatum의 구조

대부분의 도파민 뉴런은 midbrain에 있고, 세 그룹을 형성합니다: retrorubral nucleus(RRN), substantia nigra pars compacta(SNpc), ventral tegmental area(VTA). 이 작은 핵들에서, 도파민 뉴런들은 striatum, amygdala, frontal cerebral cortex 등과 같은 부위로 시그널을 보냅니다. Striatum에서, 도파민 axon들은 주로 medium spiny 뉴런들을 타겟하는데, 이들은 striatum에서 cortex로 projection하는 receipient 뉴런들입니다.

그러면 이러한 타겟 부위들에서 도파민의 역할은 무엇일까요? 도파민은 보상과 동기와 밀접한 관련이 있고, 움직임을 제어하는데도 관여합니다. 최근 연구에 따르면, 보상을 주는 행동을 반복하는 경향, 즉 강화(reinforcement)에 관여하고 있습니다. 모든 주요 약물들은 직간접적으로 도파민 시스템을 통해 작용합니다. 니코틴, 모르핀, 알콜은 도파민 뉴런을 직간접적으로 활성화 시키고, 코카인이나 암프타민은 도파민 재흡수를 막음으로써 자연적인 시냅스에 대한 도파민 반응을 극대화시킵니다. 그 결과로 이 모든 약물들은 ventral striatum과 다른 부위의 도파민 레벨을 상승시키고, 이는 중독으로 이어집니다.

그런데 움직임과 보상은 완전히 다른 기능 같은데 왜 도파민은 둘 다에 관여할까요? Morgenson(1980)은 ventral striatum을 통해 보상이 행동으로 이어진다고 제안했습니다. 즉 도파민을 통한 보상 관련 시그널이 striatum을 통해 어떤 행동이 선택될지에 영향을 주고, 보상을 얻은 행동을 강화하는 것입니다. (물론 도파민의 움직임과 보상이라는 두 기능이 항상 함께 기능하는 것은 아닙니다. 예를 들어 파킨슨병과 같은 경우에는 도파민이 움직임에 미치는 영향은 학습과는 크게 상관이 없는 것으로 나타납니다) Phasic dopamine signal은 강화학습에 관여하고, striatum의 tonic dopamine level은 움직임에 관여합니다.

도파민 뉴런은 예측하지 못한 크고작은 보상에 대해 다르게 반응합니다. 유인원을 통한 실험에서, 동물들이 음식을 발견했을 경우, 음식에 접촉한 순간 아주 강한 phasic activation이 일어났습니다. 그러나 음식이 아닌 물체일 경우 이러한 activation은 일어나지 않았습니다. 이러한 phasic dopamine response는 prediction error가 클수록 커지고, 예상을 했을수록 작아집니다. 즉, 예상치 못한, 큰 보상이면 response도 큰 것입니다. 또한 도파민 뉴런들은 조건 자극(conditioned stimuli)에도 반응하는데, 다시 말해 실제 보상이 주어지는 것 말고도 미래에 기대되는 보상에 관한 정보가 들어왔을 때도 반응을 합니다. Temporal-difference learning 모델에서, 어떠한 자극은 미래의 보상 기대를 변화시킬 때만 예측 오류를 생성합니다. 만약 첫번째 자극이 두번째 자극을 잘 예측하고, 두번째 자극이 보상을 잘 예측할 경우, 첫번째 자극에 대한 정보만이 미래에 대한 유의미한 정보로 기능하게 되고 도파민 뉴런을 활성화합니다. 하지만 만약 두번째 자극이 추가적인 정보를 준다면 마찬가지로 도파민 뉴런을 활성화하게 됩니다.

도파민 뉴런은 더 큰 예측하지 않은 보상에 더 잘 반응하지만, 이는 보상의 절대값보다는 상대적 예측치에 영향을 받습니다. 예를 들어 부자인 아이에게 예상치 못한 만원은, 가난한 아이에게 예상치 못한 만원보다 낮은 활성화를 불러일으킵니다. 도파민과 벌의 관계에 대해서는 연구 결과가 엇갈립니다. 한 연구는 dopaminergic 뉴런에는 두 종류가 있다고 주장합니다. 하나는 classic prediction error response에만 반응하는 뉴런이고, 다른 하나는 보상뿐만 아니라 벌에도 반응하는 뉴런이라는 것입니다. 도파민은 위험에서 벗어나는 것에 대한 기대를 마찬가지로 보상으로 취급할 수도 있습니다.

최근 연구(Haber and Knutson, 2010)는, 보상에 관여하는 striatal과 midbrain 부위가 생각보다 광범위하다는 것을 밝혀냈습니다. 전체 ventral striatum(VS)과 substantia nigra(SN)의 도파민 뉴런도 모두 포함합니다. 보상은 동기에 기반한 학습, 자극에 대한 적절한 반응, 목표지향적인 행동 패턴에 모두 주요한 영향을 미치는 요소입니다. 보상과 연관된 주요 cortical 부위는 arterior cingulate cortex(ACC)와 orbital frontal cortex(OFC)입니다. Primary reward(맛있는 미각, 기분 좋은 청각, 시각)과 secondary reward(금전적 보상)는 모두 frontal cortex을 활성화합니다. Primary reward는 vmPFC를 활성화시키고, 좀더 추상적인 secondary reward는 mPFC를 활성화합니다. mPFC의 활성화 정도는 물건의 가치가 올라갈수록 강해집니다.

요약: 보상 회로는 동기에 기반한 학습을 조절하는 여러 cortical and subcortical 부위로 이루어져 있고, 이는 행동을 새로운 환경에 적응하는데 도움을 줍니다. 외부 환경 자극에 적절한 반응을 유도하기 위해, 동기와 보상에 대한 정보는 목표를 성취하기 위한 전략과 결합해야 합니다. 이 액션 플랜은 보상 프로세싱, 인지 계획, 움직임 제어 등을 필요로 합니다. 즉, 보상은 홀로 기능하는 것이 아니라 네트워크처럼 이어진 많은 인지 기능과 운동 신경과 함께 기능합니다.

Total 0

« [Neuroeconomics]Session 3: 실험적 게임 이론

[Neuroeconomics]Session 5: 선호 »

List

Total 9

Number	Title	Author	Date	Votes	Views
9	[Neuroeconomics]Session 8: 중독 Irealist \| 2020.08.02 \| Votes 0 \| Views 839	Irealist	2020.08.02	0	839
8	[Neuroeconomics]Session 7: 감정 Irealist \| 2020.08.01 \| Votes 0 \| Views 499	Irealist	2020.08.01	0	499
7	[Neuroeconomics]Session 6: 사회적 의사 결정 Irealist \| 2020.07.31 \| Votes 0 \| Views 481	Irealist	2020.07.31	0	481
6	[Neuroeconomics]Session 5: 선호 Irealist \| 2020.07.14 \| Votes 0 \| Views 553	Irealist	2020.07.14	0	553
5	[Neuroeconomics]Session 4: 보상 프로세스 Irealist \| 2020.07.07 \| Votes 0 \| Views 565	Irealist	2020.07.07	0	565
4	[Neuroeconomics]Session 3: 실험적 게임 이론 Irealist \| 2020.07.07 \| Votes 0 \| Views 702	Irealist	2020.07.07	0	702
3	[Neuroeconomics]Session 2: 신경 시스템과 실험 방법론 Irealist \| 2020.06.30 \| Votes 0 \| Views 842	Irealist	2020.06.30	0	842
2	[Neuroeconomics]Session 1: 신경경제학 소개 (1) Irealist \| 2020.06.28 \| Votes 0 \| Views 1019	Irealist	2020.06.28	0	1019
1	[Neuroeconomics]신경경제학 시리즈를 시작하며 Irealist \| 2020.06.28 \| Votes 0 \| Views 868	Irealist	2020.06.28	0	868