Reinforcement Learning4 [RL] Model-Free Control 이제 model-free prediction에 이어, MDP knowledge 없이 value function을 최적화할 수 있는 방법 (model-free control)을 알아볼 것이다. 대표적으로 2가지 방법이 있는데, on-policy learning과 off-policy learning이다. On-Policy Learning On-policy learning의 대표적인 예시는 Monte-Carlo control and Temporal Difference control인데, 하나씩 다뤄보자. 먼저 ㅇdynamic programming에서 배웠던 policy iteration을 상기해보자. 우리가 배웠던 policy iteration은 iterative policy evaluation과 greed.. 2023. 6. 26. [RL] Model-Free Prediction MDP, DP와 같이 model-based learning에서 agent는 environment에 대한 거의 모든 정보를 갖고 있다. 하지만 그러한 일은 흔치 않으며, 알고 있더라도 environment의 가동은 대부분 굉장히 복잡하다. 이를 대신하여 model-free learning이 존재한다. Q-learning과 같은 model-free learning에서 agent는 environment에 대해 어떠한 정보도 필요로 하지 않고, 어떤 state가 존재하고 action이 가능한지만 안다면 충분하다. 이번 글과 다음 글에서는, MDP를 알지 못하더라도 (reward dynamic, transition probability) value function을 추정할 수 있는 방법들을 알아볼 것이다. Mon.. 2023. 6. 24. [RL] Dynamic Programming Introduction Dynamic programming, 동적 프로그래밍이란 복잡한 하나의 문제를 여러 개의 소문제로 나눈 후, 각 소문제의 해를 합쳐 문제를 풀어나가는 문제해결 패러다임이다. 동적 프로그래밍은 다음과 같은 2가지 성질을 가진 문제를 풀 때 사용될 수 있다. Optimal substructure Principle of optimality (최적성의 원리)가 적용될 수 있음 문제의 최적의 해가 소문제의 해들로 분해될 수 있음 Overlapping subproblems Subproblems recur many times 문제의 솔루션들은 저장되어 재사용할 수 있음 위 성질을 만족하는 예시 중 하나가 바로 MDP이다. 벨만 방정식은 재귀적으로 분해될 수 있으며, 각 state에 대한 v.. 2023. 6. 21. [RL] Markov Decision Process Markov Process $\mathbf{Definition.}$ Markov State State $S_t$가 다음과 같은 조건을 만족할 경우, $S_t$가 Markov property를 만족한다고 한다. 또는 $S_t$를 Markov state라고 부른다. $$ \begin{align*} P[S_{t+1} | S_t] = P[S_{t+1} | S_1, \cdots, S_t] \end{align*} $$ 즉, 어떤 마르코프 상태 $S_t = s$와 다음 상태 $S_{t+1} = s^\prime$라면, 다음과 같은 확률 값이 정의될 수 있다. $$ \begin{align*} \mathcal{P}_{ss^\prime} = P[S_{t+1} = s^\prime | S_t = s] \end{align*} $.. 2023. 6. 16. 이전 1 다음