1-1-3. Overview of the ND Program

1. Introduction to Deep Reinforcement Learning – LESSON 1 Welcome to Deep Reinforcement Learning

ND 프로그램 개요
Deep Reinforcement Learning Nanodegree 프로그램은 4개의 파트로 나누어져 있으며, Deep Reinforcement Learning에 대한 철저한 이해를 제공하고 주요 주제 중 일부를 다룹니다.

1부: 강화 학습의 기초
첫 번째 부분은 강화 학습에 대한 간단한 소개로 시작됩니다. 강화 학습으로 해결할 수 있도록 실제 문제를 MDP(Markov Decision Processes)로 정의하는 방법을 배우게 됩니다.

로봇에게 걷기를 가르치기 위해 강화 학습을 어떻게 사용할 수 있을까요?
로봇에게 걷기를 가르치기 위해 강화 학습을 어떻게 사용할 수 있을까요? (원천)

그런 다음 SARSA 및 Q-러닝과 같은 고전적인 방법을 구현하여 OpenAI Gym의 여러 환경을 해결합니다. 그런 다음 타일 코딩 및 거친 코딩과 같은 기술을 사용하여 기존 강화 학습 알고리즘으로 해결할 수 있는 문제의 크기를 확장하는 방법을 살펴봅니다.

Q-러닝을 사용하여 가파른 언덕을 탐색하도록 자동차를 훈련시킵니다.
Q-러닝을 사용하여 가파른 언덕을 탐색하도록 자동차를 훈련시킵니다.

2부: 가치 기반 방법
두 번째 부분에서는 DQN(Deep Q-Networks) 알고리즘을 사용하여 복잡한 문제를 해결할 때 신경망을 활용하는 방법을 배웁니다. 또한 이중 Q 학습, 우선 순위 경험 재생 및 결투 네트워크와 같은 수정 사항에 대해 배웁니다. 그런 다음 배운 내용을 사용하여 우주선을 탐색할 수 있는 인공 지능 게임 플레이 에이전트를 만들 것입니다!

DQN 알고리즘을 사용하여 우주선이 행성에 안전하게 착륙하도록 훈련시키십시오.
DQN 알고리즘을 사용하여 우주선이 행성에 안전하게 착륙하도록 훈련시키십시오.

또한 에이전트가 넓은 세계를 탐색하도록 가르치는 알고리즘을 작성하는 첫 번째 프로젝트도 받게 됩니다.

프로젝트 1에서는 파란색 바나나를 피하면서 노란색 바나나를 수집하도록 에이전트를 훈련합니다.
프로젝트 1에서는 파란색 바나나를 피하면서 노란색 바나나를 수집하도록 에이전트를 훈련합니다.

이 Nanodegree 프로그램의 모든 프로젝트는 Unity 머신 러닝 에이전트(ML-Agents) 소프트웨어 개발 키트(SDK)의 풍부한 시뮬레이션 환경을 사용합니다. 다음 개념에서 ML-Agent에 대해 자세히 알아봅니다.

3부: 정책 기반 방법
세 번째 부분에서는 PPO(Proximal Policy Optimization), A2C(Advantage Actor-Critic) 및 DDPG(Deep Deterministic Policy Gradients)와 같은 정책 기반 및 행위자 비판적 방법에 대해 알아봅니다. 또한 진화 전략 및 언덕 등반과 같은 최적화 기술에 대해서도 배우게 됩니다.

DDPG(Deep Deterministic Policy Gradients)를 사용하여 로봇을 걷도록 훈련시킵니다.
DDPG(Deep Deterministic Policy Gradients)를 사용하여 로봇을 걷도록 훈련시킵니다.

심층 강화 학습 기술을 재무에 적용하는 방법을 결정하기 위해 진행 중인 활발한 연구에 대해 NVIDIA의 전문가로부터 배우게 됩니다. 특히 포트폴리오 거래의 최적 실행을 위한 알고리즘을 탐색합니다.

또한 두 번째 프로젝트에서 로봇 팔이 움직이는 목표 위치에 도달하도록 훈련하는 알고리즘을 작성하게 됩니다.

프로젝트 2에서는 목표 위치에 도달하도록 로봇 팔을 훈련합니다.
프로젝트 2에서는 목표 위치에 도달하도록 로봇 팔을 훈련합니다.

파트 4: 다중 에이전트 강화 학습
대부분의 강화 학습은 단일 작업에서 숙련도를 보여주려는 단일 에이전트와 관련이 있습니다. 이 에이전트의 환경에는 다른 에이전트가 없습니다. 그러나 에이전트가 진정으로 지능적이 되기를 원하면 다른 에이전트와 통신하고 배울 수 있어야 합니다. 이 나노 학위의 마지막 부분에서 우리는 기존 프레임워크를 확장하여 여러 에이전트를 포함할 것입니다.

또한 MCTS(Monte Carlo Tree Search)에 대한 모든 것을 배우고 DeepMind의 AlphaZero 뒤에 있는 기술을 마스터합니다.

Monte Carlo Tree Search를 사용하여 Connect 4를 플레이하세요. (출처)
Monte Carlo Tree Search를 사용하여 Connect 4를 플레이하십시오. (출처)

또한 한 쌍의 에이전트가 테니스를 칠 수 있도록 훈련시키는 알고리즘을 작성하는 세 번째 프로젝트도 받게 됩니다.

프로젝트 3에서는 한 쌍의 에이전트가 테니스를 칠 수 있도록 훈련합니다.
프로젝트 3에서는 한 쌍의 에이전트가 테니스를 칠 수 있도록 훈련합니다. (원천)

%d 블로거가 이것을 좋아합니다: