[강화학습-9]Sutton 교과서 챕터 17.4: Designing Reward Signals

Author

Irealist

Date

2020-06-04 14:08

Views

978

17.4 Designing Reward Signals

지도학습(supervised learning)에 비교했을 때 강화학습이 가지는 큰 장점은, 에이전트의 어떤 행동이 어떤 보상 시그널을 불러일으키지 알지 않아도 된다는 것입니다. 그러나 그만큼 보상 시그널(reward signal)을 디자인하는 부분은 강화학습에서 굉장히 중요한 문제입니다.

이는 결코 쉬운 일이 아닌데, 예를 들어 게임과 같은 환경(environment)에서는 단순히 높은 점수를 얻는 것에 높은 보상을 부여하면 되지만, 가사 로봇을 훈련하는데 있어서 어떤 보상이 주어질지는 굉장히 복잡한 문제이기 때문입니다. 게다가 어떤 상황에서는 강화학습 에이전트가 보상을 디자인한 사람의 의도와는 다른 방법으로 해당 보상을 얻을 수 있는 방법을 찾아낼 수도 있으며, 그러한 방법은 위험하거나 의도와 반대되는 행동일 수도 있습니다.

게임과 같이 매우 쉽게 정의되는 목표가 있는 경우에도, 보상의 빈도가 흔하지 않을 때(sparse reward) 문제가 생깁니다. 이럴 경우 에이전트가 장시간 아무런 방향성도 없이 무작위의 행동만 반복할 수 있습니다. 이러한 문제를 풀기 위해 디자이너가 생각하는 목표의 하위 목표(subgoal)에 대해서도 보상을 부과하는 것은 합리적으로 보이지만, 의도와 다르게 최종 목표 자체를 이루지 못하는 경우가 추가 발생하기도 합니다. 이보다 나은 방법은 보상 시그널을 내버려 둔 채, 가치 함수의 전부 혹은 일부의 초기화값에 가이드를 주는 것입니다. 예를 들어 선형 함수(linear function) 근사를 할 때, 가치 함수의 초기화값에 다음과 같이 가이드값인 \(v_0(s)\)를 더해줄 수 있습니다.

위의 초기화는 비선형(nonlinear) 근사법 및 그 어떤 형태의 \(v_0\)도 적용가능하지만, 그럴 경우 learning을 반드시 가속화시키리라는 보장은 없습니다.

저빈도 보상(sparse reward) 문제를 해결하는 또다른 효과적인 방법 중 하나는 심리학자 B. F. Skinner (챕터 14.3 참고)가 제시한 shaping 테크닉 입니다. 이 테크닉의 골자는, 이 문제는 보상의 빈도 문제이기도 하지만 에이전트의 정책이 보상을 주는 상태로 자주 가지 않아서 발생하는 문제기도 하다는 아이디어에서 시작합니다. Shaping 테크닉은 초기에는 에이전트에 행동에 맞춰 많은 빈도의 보상이 발생하도록 하다가, 점점 더 원래의 보상 시그널과 동일하게 변화하는 방향으로 수정해 나갑니다. 에이전트는 쉬운 환경에서 어려운 환경으로 점진적으로 배움을 계속함에 따라, 이전 단계에서 배운 것을 바탕으로 다음 단계에서 더 쉽게 보상이 있는 곳을 찾음으로써 저빈도 보상의 문제가 어느 정도 해결이 됩니다. Shaping은 동물을 트레이닝하는데도 자주 쓰이며, 강화학습에서도 효과적입니다.

만약 보상에 대해 아무런 정보가 없지만 다른 에이전트, 사람, 혹은 전문가의 행동을 관찰할 수 있다면, 모방 학습(imitation learning, learning from demonstration, 혹은 apprenticeship learning)을 해볼 수 있습니다. 전문가의 행동을 통해 직접적으로 지도 학습을 하거나, 아니면 역 강화학습(inverse reinforcement learning)을 통해 보상 시그널을 추출할 수 있습니다. 물론 이는 정확하게는 불가능한데, 어떠한 정책은 다수의 보상 시그널에 대해 동시에 최적일 수 있기 때문입니다. 또한 강한 가정들이 필요하고 환경의 dynamic 및 feature vector에 대한 정보가 필요하며, dynamic programming 방법 등을 통해 해당 문제를 여러 번에 걸쳐 완전히 풀어야하지만, 이러한 난점에도 불구하고 때로 지도학습보다 더 유용할 때가 있습니다.

좋은 보상 시그널을 찾는 또하나의 방법은 보상 시그널을 파라미터로 취급한 채로, gradient ascent 등을 이용해 최적화를 진행하는 것입니다. 최적화 알고리즘은 각 후보 보상 시그널을 바탕으로 강화학습 시스템을 일정 step 돌려보고, 그 결과를 어떤 "high-level" objective function으로 평가하게 됩니다. 자연에 비유하자면 high-level objective function은 동물의 진화론적 생존력을 표현하는, 살아남는 개체 수일 것이고 최적화 알고리즘은 진화일 것입니다. 그러나 실제 이 방법을 사용해 보면, high-level objective function으로 평가되는 강화학습의 성능이, 에이전트의 한계와 환경에 따라 달라지는 에이전트의 보상 시그널의 사소한 차이에 너무나도 민감한 반응을 보이기 때문에 쉽지는 않습니다.

조금 직관에 역행할 수도 있지만, 보상 시그널이 어떠한가에 관계없이 에이전트가 디자이너의 목표를 성취하는 것 자체가 불가능할 수 있습니다. 에이전트는 계산력, 환경에 대한 정보부족, 배울 시간의 부족 등의 한계에 부딪히기 때문에, 어떨때는 에이전트로 하여금 디자이너가 원하는 실제 목표를 직접 좇게 하는 것보다 조금은 다른 목표를 좇게 하는게, 결과론적으로 실제 목표에 더 가깝게 행동하도록 할 수도 있습니다. 그에 대한 자연에서의 예를 찾자면, 인간은 각 음식에 대한 영양 정보를 직접 관찰하는 것이 불가능하기 때문에, 진화는 우리에게 어떤 특정한 맛을 좇도록 하였습니다. 이를 통해 인간의 한계에도 불구하고 몸에 필요한 영양소를 섭취할 수 있게 됩니다.

마지막으로, 강화학습 에이전트는 반드시 어떤 유기체나 로봇처럼 완전체가 아니라, 더 큰 행동 시스템의 일부일 수 있습니다. 그 말은, 보상 시그널이 더 큰 시스템의 동기, 기억, 아이디어, 혹은 환상에 의해서도 영향받을 수 있다는 것입니다. 또한 보상 시그널은 배우는 과정 자체에 영향을 받기도 합니다. 보상 시그널이 이러한 내부 요소를 감안하도록 디자인하는 것은 스스로의 인지 구조(cognitive architecture)를 컨트롤하게 함으로써, 외부 이벤트에서만 배우는 에이전트에 비해 더 복잡한 지식이나 스킬을 배울 수 있게 합니다. 이는 "intrinsically-motivated reinforcement learning"이라는 아이디어로 연구되고 있습니다.

Total 0

« [강화학습-8]Sutton 교과서 챕터 12: Eligibility Traces

[강화학습-10]Sutton 교과서 챕터 2: Multi-armed Bandits »

List

Total 38

Number	Title	Author	Date	Votes	Views
Notice	[공지]Data Science 게시판의 운영에 관하여 Irealist \| 2020.05.18 \| Votes 0 \| Views 1235	Irealist	2020.05.18	0	1235
37	[통계분석-3]Statistical Concepts(작성중) Irealist \| 2020.08.23 \| Votes 0 \| Views 1000	Irealist	2020.08.23	0	1000
36	[통계분석-2]Statistical Data Irealist \| 2020.08.04 \| Votes 0 \| Views 1329	Irealist	2020.08.04	0	1329
35	[통계분석-1]통계 분석 시리즈를 시작하며 / Introduction Irealist \| 2020.08.04 \| Votes 0 \| Views 1171	Irealist	2020.08.04	0	1171
34	[강화학습-14]Sutton 교과서 챕터 13: Policy Gradient Methods Irealist \| 2020.06.21 \| Votes 0 \| Views 1599	Irealist	2020.06.21	0	1599
33	[강화학습-13]Sutton 교과서 챕터 11: Off-policy Methods with Approximation Irealist \| 2020.06.17 \| Votes 0 \| Views 943	Irealist	2020.06.17	0	943
32	[강화학습-12]Sutton 교과서 챕터 10: On-policy Control with Approximation Irealist \| 2020.06.17 \| Votes 0 \| Views 1063	Irealist	2020.06.17	0	1063
31	[강화학습-11]Sutton 교과서 챕터 9: On-Policy Prediction with Approximation Irealist \| 2020.06.15 \| Votes 0 \| Views 1000	Irealist	2020.06.15	0	1000
30	[강화학습-10]Sutton 교과서 챕터 2: Multi-armed Bandits Irealist \| 2020.06.04 \| Votes 0 \| Views 1310	Irealist	2020.06.04	0	1310
29	[강화학습-9]Sutton 교과서 챕터 17.4: Designing Reward Signals Irealist \| 2020.06.04 \| Votes 0 \| Views 978	Irealist	2020.06.04	0	978
28	[강화학습-8]Sutton 교과서 챕터 12: Eligibility Traces Irealist \| 2020.05.28 \| Votes 0 \| Views 1831	Irealist	2020.05.28	0	1831
27	[강화학습-7]Sutton 교과서 챕터 7: n-step Bootstrapping Irealist \| 2020.05.28 \| Votes 0 \| Views 2074	Irealist	2020.05.28	0	2074
26	[강화학습-6]Sutton 교과서 챕터 8: Tabular Methods Irealist \| 2020.05.27 \| Votes 0 \| Views 724	Irealist	2020.05.27	0	724
25	[강화학습-5]Sutton 교과서 챕터 6: Temporal-Difference Learning Irealist \| 2020.05.23 \| Votes 0 \| Views 1052	Irealist	2020.05.23	0	1052
24	[강화학습-4]Sutton 교과서 챕터 5: Monte Carlo Methods Irealist \| 2020.05.19 \| Votes 0 \| Views 1414	Irealist	2020.05.19	0	1414
23	[강화학습-3]Sutton 교과서 챕터 4: Dynamic Programming Irealist \| 2020.05.19 \| Votes 0 \| Views 1230	Irealist	2020.05.19	0	1230