1-4-1. Learning Plan

1. Introduction to Deep Reinforcement Learning – LESSON 4 Learning Plan

Reinforcement Learning – An Introduction 2ed., Richard S. Sutton and Andrew G. Barto (This work is licensed under the Creative Commons Attribution-NonCommercial-NoDerivs
2.0 Generic License.)Hierarchical Reinforcement Learning with the MAXQ Value
Function Decompositionhttps://arxiv.org/pdf/cs/9905014.pdf

학습 계획
이 Nanodegree 프로그램의 첫 번째 부분은 강화 학습의 기초를 다루며 4주 동안 진행됩니다. 이 프로그램의 처음 4주 동안에는 신경망을 활용하여 지능형 에이전트를 훈련시키는 방법을 학습하는 과정에서 나머지 시간을 보내기 전에 강화 학습(신경망 제외)에 대한 강력한 배경 지식을 구축할 것입니다.

1주차
첫 주에는 강화 학습의 기초를 배우게 됩니다.

수업: RL 소개
이 단원에서는 강화 학습에 대한 친숙한 소개를 살펴봅니다.

수업: RL 프레임워크: 문제
이 단원에서는 실제 문제를 MDP(Markov Decision Process)로 지정하여 강화 학습으로 해결할 수 있도록 하는 방법을 배웁니다.

수업: RL 프레임워크: 솔루션
이 단원에서는 가치 함수와 최적 정책에 대해 모두 배웁니다.

판독값
교과서 1장(특히 1.1-1.4)
교과서 3장(특히 3.1-3.3, 3.5-3.6)
2주차
두 번째 주에는 강화 학습 문제를 해결하기 위해 고유한 에이전트를 구축합니다.

수업: 동적 프로그래밍(선택 사항)
이 단원에서는 약간 더 쉬운 문제를 해결하는 솔루션 방법 클래스에 대해 학습하여 강화 학습 문제에 대한 약간의 직관을 구축합니다. (이 수업은 선택 사항이며 과외 콘텐츠에서 액세스할 수 있습니다.)

수업: 몬테카를로 방법
이 단원에서는 Monte Carlo 방법으로 알려진 솔루션 방법 클래스에 대해 배웁니다. OpenAI Gym에서 자신만의 블랙잭 플레이 에이전트를 구현합니다.

판독값
교과서의 4장(특히 4.1-4.4)(이 읽기는 선택 사항이며 선택 사항인 동적 프로그래밍 수업과 함께 제공됩니다.)
교과서 5장(특히 5.1-5.6)
3주차
세 번째 주에는 약간 더 정교한 솔루션 클래스를 활용하여 OpenAI Gym에서 자신만의 에이전트를 구축할 것입니다.

수업: 시간차 방법
이 단원에서는 SARSA, Q-learning 및 Expected SARSA와 같은 시간차 방법을 적용하여 일시적인 작업과 계속되는 작업을 모두 해결하는 방법을 배웁니다.

수업: OpenAI Gym의 Taxi-v2 작업 해결
이 단원에서는 승객을 태우고 내리기 위해 택시를 훈련시키는 방법을 배웠습니다.

판독값
교과서 6장(특히 6.1-6.6)
이 연구 논문의 하위 섹션 3.1
4주차
지난 주에는 더 많은 종류의 문제를 해결하기 위해 배운 알고리즘을 적용하는 방법을 배우게 됩니다.

수업: 연속 공간의 RL
이 단원에서는 타일 코딩 및 거친 코딩과 같은 기술을 사용하여 기존 강화 학습 알고리즘으로 해결할 수 있는 문제의 크기를 확장하는 방법을 탐색합니다.

수업: 다음은 무엇입니까?
이 수업에서는 Nanodegree 프로그램의 다음 세 부분에서 무엇이 나올지 자세히 알아볼 것입니다. Nanodegree 프로그램의 첫 번째 부분을 일찍 마치면 시간을 가장 잘 보내는 방법에 대한 몇 가지 팁도 얻을 수 있습니다!

판독값
교과서 9장(특히 9.1-9.7)

%d 블로거가 이것을 좋아합니다: