DQN과 A2Cnetwork를 활용한 CartPole 강화학습 훈련과정 및 code

본 자료는 5페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 5페이지 까지만 미리보기를 제공합니다.
5페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

DQN과 A2Cnetwork를 활용한 CartPole 강화학습 훈련과정 및 code에 대한 보고서 자료입니다.

본문내용

Deep Learning 적용 시 문제점과 해결방법

1. Deep Learning Label (정답)이 있는 Data를 학습시키는데, Reinforcement Learning은 Label이 없고, 가끔 들어오는 Reward로 학습을 시켜야하기 때문에, 제대로 된 학습이 되기 힘들다.
2. Deep Learning은 Data Sample ol ii.d (서로 독립적)이라는 가정을 하지만, Reinforcement Learning에서는 다음 State가 현재 State과 연관성 (Correlation)이 크기 때문에 이 가정이 성 립하지 않는다.
이런 문제점 때문에 단순히 Q-Table을 Deep Learning Model로 치환하는 것으로는
제대로된 학습 효과를 보기 힘들다. 따라서, DQN을 제시한 논문에서는 Experience Replay라는 방법을 사용한다. 쉽게 말하면, '강화학습 Episode를 진행하면서, 바로 DL의 Weight를 학습시 키는 것이 아니라, Time-Step마다 [S(Current State), A(Action), R (Reward), S'(Next State) Data set을 모아서 학습하자는 방법'이다.
이렇게 모든 Data를 Random하게 뽑으면, 각 Data 간의 Correlation이 줄어들기 때문
에 2번 문제를 해결할 수 있다. 추가적으로, Data를 여러 번 재활용할 수 있다는 부수효과도 얻 을 수 있다. 이렇게 만든 Experience-Replay Buffer는 N개의 크기를 갖고 있다가, Buffer가 꽉 차면 일부 Data를 새로운 Sample로 대체하는 방식을 갖게 된다. 신경망의 주요 목표는 target과 prediction의 격차를 줄이는 것이다. (이하 생략)

키워드

DQN, A2C, Cartpole, 강화학습, 인공지능, code

소개글

목차

본문내용

키워드

추천자료