AI6 [Generative model] Generative Adversarial Network (GAN) Generative Adversarial Networks Implicit generative models 지금까지 우리는 관찰된 데이터 $\mathbf{x}$의 확률 분포의 형태를 명시적으로 모델링하는 생성 모델들 explicit generative model들을 살펴보았다. 반면 관찰된 데이터의 확률 분포를 명시적으로 모델링하지 않고 데이터를 생성해낼 수 있는 모델로 implicit generative model도 존재한다. Explicit generative model과는 다르게 implicit generative model은 데이터의 확률 분포나 likelihood를 모델링하지 않고 관찰된 데이터를 바탕으로 바로 데이터를 생성해낼 수 있는 확률 과정을 정의한다. 이러한 모델은 현실 세계의 문제에서 .. 2023. 6. 26. [RL] Model-Free Control 이제 model-free prediction에 이어, MDP knowledge 없이 value function을 최적화할 수 있는 방법 (model-free control)을 알아볼 것이다. 대표적으로 2가지 방법이 있는데, on-policy learning과 off-policy learning이다. On-Policy Learning On-policy learning의 대표적인 예시는 Monte-Carlo control and Temporal Difference control인데, 하나씩 다뤄보자. 먼저 ㅇdynamic programming에서 배웠던 policy iteration을 상기해보자. 우리가 배웠던 policy iteration은 iterative policy evaluation과 greed.. 2023. 6. 26. [RL] Model-Free Prediction MDP, DP와 같이 model-based learning에서 agent는 environment에 대한 거의 모든 정보를 갖고 있다. 하지만 그러한 일은 흔치 않으며, 알고 있더라도 environment의 가동은 대부분 굉장히 복잡하다. 이를 대신하여 model-free learning이 존재한다. Q-learning과 같은 model-free learning에서 agent는 environment에 대해 어떠한 정보도 필요로 하지 않고, 어떤 state가 존재하고 action이 가능한지만 안다면 충분하다. 이번 글과 다음 글에서는, MDP를 알지 못하더라도 (reward dynamic, transition probability) value function을 추정할 수 있는 방법들을 알아볼 것이다. Mon.. 2023. 6. 24. [RL] Convergence of DP Convergence of Dynamic Programming 지난 글에서는 environment의 reward dynamic, transition matrix 등 모든 MDP 정보들이 알려져 있을 때 이 정보를 활용하여 planning할 수 있는 dynamic programming 알고리즘들을 배웠다. Policy iteration, value iteration들의 업데이트 공식은 직관적으로 Bellman equation을 기반으로 이루어졌었는데, 이 글에선 두 알고리즘이 실제로 optimal point로 수렴할 수 있는지를 간단하게 증명해볼 것이다. Preliminary 먼저 증명을 위해선 몇 가지 사전 지식이 필요하다. Contraction Mapping Theorem $\mathbf{Definit.. 2023. 6. 22. 이전 1 2 다음