『모두를 위한 딥러닝 Deep Reinforcement Learning 』 은
인공지능이 스스로 학습하고 행동을 선택하는 원리를 익힐 수 있도록 설계된 입문 강의입니다. 강아지 훈련이나 게임 플레이를 예로 들어 보상 기반 학습 개념을 쉽게 이해하고, Q-Learning부터 DQN까지의 핵심 알고리즘을 구현해봅니다.
OpenAI Gym 환경을 통해 탐험, 보상, 정책의 흐름을 실습 중심으로 익힐 수 있도록 구성되어 있습니다.
복잡한 수식 없이도 원리를 이해할 수 있도록 설계되어, 직접 실험하며 강화학습의 핵심 구조를 체득하게 됩니다.
특히 이러한 강화학습 기초는 최근 주목 받는 Reasoning 기반 AI 모델의 근간이 되는 이론으로, 최신 흐름을 이해하는 데 중요한 발판이 됩니다.
AI가 어떻게 ‘결정하고 배우는지’를 알고 싶다면, 이 강의가 가장 실용적인 출발점이 되어줄 것입니다.
1 | 1. 수업 개요 | 13:43 |
2 | 2.1 OpenAI GYM 게임해보기 | 10:15 |
3 | 2.2 [Lab2] OpenAI GYM 게임해보기 | 9:36 |
4 | 3.1. Dummy Q-learning (table) | 20:49 |
5 | 3.2. [Lab3] Dummy Q-learning (table) | 12:58 |
6 | 4.1. Q-learning exploit&exploration and discounted reward | 17:00 |
7 | 4.2. [Lab4]Q-learning exploit&exploration and discounted reward | 6:57 |
8 | 5.1. Q-learning in non-deterministic world | 13:56 |
9 | 5.2. [Lab5-1] Q-learning in non-deterministic world | 9:29 |
10 | 5.3. [Lab5-2] Q-learning (Table) Demo by Jae Hyun Lee | 0:38 |
11 | 6.1. Q-Network | 16:43 |
12 | 6.2. [Lab6-1]Q Network for Frozen Lake | 18:03 |
13 | 6.3. [Lab6-2] Q Network for Cart Pole | 21:41 |
14 | 7.1. DQN | 17:46 |
15 | 7.2. [Lab7-1] DQN 1 (NIPS 2013) | 19:23 |
16 | 7.3. [Lab7-2] DQN 2 (Nature 2015) | 15:59 |
17 | 7.4. [Lab7-3] DQN Cart Pole Demo | 0:22 |
18 | 7.5. [Lab7-4] DQN Simple Pacman Demo (여러분은 최고 몇 점까지 갈수 있나요?) | 1:25 |
서지영
Sung Kim (김성훈)