본문 바로가기

Paper Review

Reference Learning and Control as Probabilistic Inference: Tutorial and Review 논문 리뷰

블로그 작성하는데 시간이 많이 걸릴 것 같아

완성된 슬라이드 작업본을 미리 올립니다.

https://www.slideshare.net/ssuserbd1647/control-as-inferencepptx

----------------------------------------------------------------------------------------

작성 중...

 

리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr)

Reference Learning and Control as Probabilistic Inference: Tutorial and Review 논문 리뷰

저자: Sergey Levine

https://arxiv.org/abs/1805.00909

 

1. 그래프 모델과 강화학습

강화학습은 상태, 행동, 그리고 다음 상태로의 전이라는 일련의 시퀀스로 표현할 수 있습니다. 기존의 강화학습 프레임워크에서는 이러한 시퀀스를 바탕으로 많은 제어(control) 알고리즘을 만들었습니다. 그런데 이러한 시퀀스는 확률적 그래프 모델 (Probabilistic graphical model)로 표현할 수 있습니다. 본 논문에서는 강화학습을 기존의 dynamic programming 관점이 아닌 그래프의 추론 문제로 바라봅니다. 언뜻 보면 확률적 그래프 모델과 기존의 강화학습 프레임워크의 공통점을 발견하기 어려워 보이는데, Levine 교수님은 어떻게 이 그래프 모델을 어떻게 활용하였을까요?

 

확률적 그래프 모델 (Probabilistic graphical model, PGM)은 머신러닝에 있어 유용하며 자주 사용되는 프레임워크입니다. 확률적 그래프 모델, 이하 그래프 모델은 사건의 인과 관계를 그래프 모형으로 도식화하여 이를 통해 다양한 추론을 편리하게 가능케 합니다. 유명한 베이지안 네트워크, 마르코프 모형, 히든 마르코프 모형(Hidden Markov Model, HMM) 등이 그래프 모델의 한 종류입니다.  앞에서 말했듯이 강화학습은 상태, 행동, 그리고 다음 상태로의 전이로 표현할 수 있습니다. 이 과정을 시간의 흐름으로 표현하면 아래와 같은 확률적 그래프 모델로 표현이 가능합니다.

 

그런데 강화학습에서 중요한 건 각 상태에서 최적의 행동을 하도록 제어하는 것입니다. 물론 일반적인 강화학습 프레임워크에서 각 상태에서의 최적의 행동이란 앞으로 있을 보상의 합이 가장 크도록 만드는 행동을 뜻합니다. 그런데 위 그림(a)에서는 각 상태와 행동 쌍만이 주어졌을 뿐 이 행동들이 최적의 행동인지 아닌지 알 수 있는 방법이 없습니다. 따라서 우리는 이 행동들이 최적의 행동이었는지 알 수 있도록  각 행동마다 "최적성 변수" (optimality variable)를 도입해야 합니다. 최적성 변수는 행동이 최적 행동이었으면 1, 그렇지 않으면 0인 이진 변수(binary bariavle)입니다. 이 최적성 변수를 도입하면 그림 (a)는 아래처럼 수정됩니다.

수정된 그림 (b)는 최적성 변수가 도입된 상태 행동 쌍들의 시퀀스를 나타냅니다. 이 최적성 변수는 마치 HMM 프레임워크에서 관측 변수에 해당된다고 볼 수 있습니다. 즉, 최적성 변수를 보고 각 행동이 최적인지 아닌지 추론할 수 있습니다. 다시 말해 우리는 최적성 변수가 1일 확률이 높다면 이에 해당되는 행동은 최적일 가능성이 높다고 생각할 수 있겠습니다. 

2. 그래프 추론

그렇다면 이제 우리는 최적성 변수에 대한 확률 분포를 정해야 합니다. 본 논문에서는 최적성 변수가 1일 확률을 보상에 비례하게 설정하였습니다. 좀 더 엄밀히 말하면 최적성 변수의 확률 분포를 볼츠만 분포로 정의합니다. 보상을 에너지의 관점으로 바라본 것이죠. (최적성을 soft하게 표현하게 됩니다.) 따라서 아래와 같은 식을 얻을 수 있습니다.

또한 앞으로 수식의 간결함을 위해 $\mathcal{O}_{t}=1$를  $\mathcal{O}_{t}$로 축약해서 표현하겠습니다. 최적성 변수의 확률 분포를 식 (3) 처럼 잡은 것이 처음에는 너무 인위적으로 보일  수 있지만, 이는 아주 자연스러운 사후 분포를 나타나게 합니다.  이를 보이기 위해 어떤 상태-행동 쌍의 궤적에 대해 최적성이 모두 1 이였을 때의 사후 확률을 구해보겠습니다. 각 상태-행동 쌍의 궤적(trajectory)를 $\tau$라고 하면, 최적성이 모두 1일 때 궤적의 확률은 아래와 같습니다.

최적성이 모두 1였다는 것은, 그 궤적이 최적의 행동을 담고 있었다는 것이겠죠? 이제 이 궤적에 대한 확률이 어떻게 될 지 한번 계산해보겠습니다.

 

식 (4)를 보면 보상의 합이 클 수록 최적의 행동을 했을 확률이 비례한다는 것을 확인할 수 있습니다. 이것은 결정론적 다이나믹스 (deterministic dynamics)를 가지는 환경에서 바라보면 더욱 직관적입니다. 결정론적 다이나믹스에서는 전이 확률이 1이기 때문에 식 (4)는 아래처럼 축약될 수 있습니다.

식(5)를 보면 오직 보상의 합이 클수록 어떤 궤적이 최적의 궤적이었을 확률이 높아집니다. 이는 기존 강화학습 프레임워크의 목적식 (objective)과 같은 동일한 자연스러운 결과입니다. 한편 확률론적 다이나믹스 (stochastic dynamics)을 가지는 환경인 경우는 조금 복잡합니다. 이 경우에 대해서는 6장에서 다시 살펴보겠습니다.

 

3. 그래프 추론을 통한 정책 찾기

 

4. 그래프 추론은 어떤 목적식을 가지고 있을까?

 

5. 양의 리워드와 엔트로피 계수

 

6. 변분 추론과 확률론적 다이나믹스

 

7. 응용