목차
- Cartpole environment
- DQN algorithm & code
- A2C algorithm & code
- DQN algorithm & code
- A2C algorithm & code
본문내용
Deep Learning 적용 시 문제점과 해결방법
1. Deep Learning Label (정답)이 있는 Data를 학습시키는데, Reinforcement Learning은 Label이 없고, 가끔 들어오는 Reward로 학습을 시켜야하기 때문에, 제대로 된 학습이 되기 힘들다.
2. Deep Learning은 Data Sample ol ii.d (서로 독립적)이라는 가정을 하지만, Reinforcement Learning에서는 다음 State가 현재 State과 연관성 (Correlation)이 크기 때문에 이 가정이 성 립하지 않는다.
이런 문제점 때문에 단순히 Q-Table을 Deep Learning Model로 치환하는 것으로는
제대로된 학습 효과를 보기 힘들다. 따라서, DQN을 제시한 논문에서는 Experience Replay라는 방법을 사용한다. 쉽게 말하면, '강화학습 Episode를 진행하면서, 바로 DL의 Weight를 학습시 키는 것이 아니라, Time-Step마다 [S(Current State), A(Action), R (Reward), S'(Next State) Data set을 모아서 학습하자는 방법'이다.
이렇게 모든 Data를 Random하게 뽑으면, 각 Data 간의 Correlation이 줄어들기 때문
에 2번 문제를 해결할 수 있다. 추가적으로, Data를 여러 번 재활용할 수 있다는 부수효과도 얻 을 수 있다. 이렇게 만든 Experience-Replay Buffer는 N개의 크기를 갖고 있다가, Buffer가 꽉 차면 일부 Data를 새로운 Sample로 대체하는 방식을 갖게 된다. 신경망의 주요 목표는 target과 prediction의 격차를 줄이는 것이다. (이하 생략)
1. Deep Learning Label (정답)이 있는 Data를 학습시키는데, Reinforcement Learning은 Label이 없고, 가끔 들어오는 Reward로 학습을 시켜야하기 때문에, 제대로 된 학습이 되기 힘들다.
2. Deep Learning은 Data Sample ol ii.d (서로 독립적)이라는 가정을 하지만, Reinforcement Learning에서는 다음 State가 현재 State과 연관성 (Correlation)이 크기 때문에 이 가정이 성 립하지 않는다.
이런 문제점 때문에 단순히 Q-Table을 Deep Learning Model로 치환하는 것으로는
제대로된 학습 효과를 보기 힘들다. 따라서, DQN을 제시한 논문에서는 Experience Replay라는 방법을 사용한다. 쉽게 말하면, '강화학습 Episode를 진행하면서, 바로 DL의 Weight를 학습시 키는 것이 아니라, Time-Step마다 [S(Current State), A(Action), R (Reward), S'(Next State) Data set을 모아서 학습하자는 방법'이다.
이렇게 모든 Data를 Random하게 뽑으면, 각 Data 간의 Correlation이 줄어들기 때문
에 2번 문제를 해결할 수 있다. 추가적으로, Data를 여러 번 재활용할 수 있다는 부수효과도 얻 을 수 있다. 이렇게 만든 Experience-Replay Buffer는 N개의 크기를 갖고 있다가, Buffer가 꽉 차면 일부 Data를 새로운 Sample로 대체하는 방식을 갖게 된다. 신경망의 주요 목표는 target과 prediction의 격차를 줄이는 것이다. (이하 생략)
추천자료
지식기반사회에 부응하는 인적자원개발의 패러다임에 관한 고찰
[행동수정][행동수정 기법][행동수정 이론][행동수정 실제][행동]행동수정 기법과 이론 및 실...
직업훈련제도(직업교육정책) 역사, 직업훈련제도(직업교육정책) 분류, 직업훈련제도(직업교육...
초등학교 3학년의 교육과정운영중점, 초등학교 3학년의 교과교육과정, 초등학교 3학년의 재량...
웹기반수업(웹기반교육,학습, WBI)의 개념과 유형, 웹기반수업(웹기반교육,학습, WBI)의 특징...
[초등학교교육]초등학교의 예절교육, 초등학교의 기본생활습관교육, 초등학교의 정보통신윤리...
[기업 직업훈련][기업 직업훈련 전략]기업 직업훈련의 유형, 기업 직업훈련의 역사, 기업 직...
직업훈련 전문가의 역할 - 개관과 필요성 - 전문가의 특성과 요건 정의 - 기능과 역할
소개글