Taeho Blog
  • Home
  • Tech
  • Startup
  • Paper Review
  • Diary
  • About
Sign in Subscribe

Study

Study

RL-9. Policy-Gradient and Actor-Critic methods

지금까지 Model-based, Value-based를 다뤘다. Policy-based는 또다른 장단점을 갖고 있다. 상황에 따라 model을
Read More
이태호
Study

RL-7. Function Approximation in RL

이번 강의에서는 state가 너무 많을 때 근사하여 value를 예측하는 법을 배운다. 다음
Read More
이태호
Study

RL-6. Model-free Control

저번 강까지는 unknown MDP에서 value function을 예측하는 방법인 Model-free prediction을 배웠다. 이번
Read More
이태호
Study

RL-5. Model-free Prediction

저번 강까지는 known MDP에서 dynamic programming을 통한 planning을 다뤘다. 이번 강부터는 unknown
Read More
이태호
Taeho Blog © 2025
  • Github
  • Linkedin
  • Contact
Powered by Ghost