|
DQN을 제시한 논문에서는 Experience Replay라는 방법을 사용한다. 쉽게 말하면, '강화학습 Episode를 진행하면서, 바로 DL의 Weight를 학습시 키는 것이 아니라, Time-Step마다 [S(Current State), A(Action), R (Reward), S'(Next State) Data set을 모아서 학습하자는 방법'
|
- 페이지 16페이지
- 가격 1,500원
- 등록일 2024.04.06
- 파일종류 아크로벳(pdf)
- 참고문헌 없음
- 최근 2주 판매 이력 없음
|