본문 바로가기

RL

(9)
강화학습 7강 Policy Gradient
강화학습 6강 Value Function Approximation
강화학습 5강 Model Free Control
강화학습 4강 Model Free Prediction
강화학습 3강 Planning by Dynamic Programming
강화학습 2강 MDP https://www.davidsilver.uk/teaching/ Teaching - David Silver www.davidsilver.uk https://www.youtube.com/playlist?list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU 강화학습의 기초 이론 www.youtube.com David Silver 강의와 팡요랩 강의를 보고 작성하였습니다. MDP (Markov Decision Process) MDP는 강화학습 하면 떼어놓을 수 없는 이론이다.
강화학습 1강 Introduction https://www.davidsilver.uk/teaching/ Teaching - David Silver www.davidsilver.uk https://www.youtube.com/playlist?list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU 강화학습의 기초 이론 www.youtube.com David Silver 강의와 팡요랩 강의를 보고 작성하였습니다. 용어 정리 Reward 정의 : 스칼라 형태의 피드백 신호(scalar feedback signal) Agent의 할 일은 축적되는 보상(cumulative reward)를 최대화 하는 것이다. 강화학습은 보상 가정(Reward Hypothesis) 기반이다. Reward의 예시들 - 헬리콥터를 운전할 때 + : 부딪히지..
Cartpole 예제 코드 분석 https://medium.com/@ashish_fagna/understanding-openai-gym-25c79c06eccb Understanding OpenAI Gym OpenAI is a non-profit research company that is focussed on building out AI in a way that is good for everybody. It was founded by Elon… medium.com https://www.gymlibrary.dev/api/core/#gym.Env.action_space Core - Gym Documentation Previous Basic Usage www.gymlibrary.dev 본 포스팅은 위 홈페이지를 참조하여 작성하였습니다. im..
Deep Reinforcement Learning (DRL) 환경 구축 방법 강화학습 환경 구축 방법 - OS : Windows 11 - Python Virtual Environments : Anaconda (You can use Miniconda) - Python : 3.10.4 - Deep Learning Framework Library : Torch 1.12.0 *** Code example *** https://github.com/seungeunrho/minimalRL GitHub - seungeunrho/minimalRL: Implementations of basic RL algorithms with minimal lines of codes! (pytorch based) Implementations of basic RL algorithms with minimal line..