본문 바로가기

Paper Review

(7)
Multi-Agent Constrained Policy Optimisation(MACPO, MAPPO-Lagrangian) 논문리뷰 리뷰 작성 : 김한결 본 논문을 읽기전에 알면 좋은 논문들 1. Trust Region Policy Optimization - Schulman et al. 2015 2. Settling the Variance of Multi-Agent Policy Gradients - Kuba et al. 2021b 3. Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning - Kuba et al. 2021a 0. Preliminary 본 논문을 요약하자면 다음과 같습니다. 1. Constrained Markov Decision Processes (CMDP)에서 정책 업데이트가 될수록 cost가 작아지는 Multi-Agent Constrained ..
Planning with Goal-Conditioned Policies (2019) 논문 리뷰 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) 1. Introduction 최근의 강화학습 알고리즘은 에이전트가 환경과의 직접적인 상호작용을 통해 복잡한 스킬들을 배울 수 있음을 증명하였다. 그러나 일련의 행동들이 연속적으로 이어진 상태로 오랜 시간 동안 진행되는 경우 (Temporally extended sequential decision making case), 에이전트는 현재 행동의 결과가 미래에 어떻게 영향을 미칠지 고려해야 하며, 긴 시간 동안 계획을 세우고 실행해야 한다. 본 논문에서는 이를 위해 플래닝을 활용한 GCRL 알고리즘을 제안한다. 당연하게도 플래닝이 성공적으로 동작하려면 정확한 모델이 요구된다. 전문 지식 등을 활용하여 모델을 직접 설계한다면 그 ..
Reference Learning and Control as Probabilistic Inference: Tutorial and Review 논문 리뷰 블로그 작성하는데 시간이 많이 걸릴 것 같아 완성된 슬라이드 작업본을 미리 올립니다. https://www.slideshare.net/ssuserbd1647/control-as-inferencepptx ---------------------------------------------------------------------------------------- 작성 중... 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) Reference Learning and Control as Probabilistic Inference: Tutorial and Review 논문 리뷰 저자: Sergey Levine https://arxiv.org/abs/1805.00909 1. 그래프 ..
Variational Adversarial Imitation Learning (VAIL) 논문리뷰 리뷰 작성: 김한결 / 석사과정 (gksruf621@postech.ac.kr) Variational Adversarial Imitation Learning이 등장하는 논문의 본래 이름은 Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow입니다. Variational Discriminator Bottleneck (VDB)논문에서는 GAN과 같은 Adversarial learning methods를 제안한 것이기 때문에 Imitation Learning 뿐만 아니라 이미지 생성과 같은 다른 Task들이 존재합니다. 저희는 Imitation Le..
Trust Region Policy Optimization 논문 리뷰 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) 0. Abstract 본 논문에서는 반복적 절차(Iterative Procedure)를 통한 정책 향상 알고리즘을 소개하고 있습니다. TRPO라고 불리는 이 알고리즘은 이론적으로 정책향상을 보장하는 알고리즘을 실용적으로 적용 가능하게 근사한 것입니다. 이 알고리즘은 신경망과 같이 비선형 정책을 최적화하는데 효과적인 Natural Policy Gradient 방법과 비슷합니다. TRPO는 robotic swimming, hopping 등과 같은 다양한 Task에서 좋은 성능을 보이며 연속적인 행동 공간 제어와 관련해서 Policy Gradient의 가능성을 보여준 알고리즘입니다. 또한 TRPO는 연속적인 행동 공간뿐만 아니라 ..
Natural Policy Gradient 논문 리뷰 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) 0. 시작하기 전에 알면 좋은 것들. 1 장에서는 본 논문을 읽기 전에 알아야 할 것들을 정리하였습니다. 사실 이번 장만 완벽히 이해하시면 본 논문의 대부분을 이해하셨다고 해도 과언이 아닙니다. 이 장의 내용은 Agustunus Kristiadi's Blog를 참고하여 작성하였습니다. 참고한 블로그의 링크는 https://agustinus.kristia.de/techblog/2018/03/11/fisher-information/ 입니다. 0-1. Fisher Information Matrix 첫 번째로 알아야 할 내용은 ‘피셔 정보 행렬' 입니다. 먼저 피셔 정보란 관측 가능한 확률 변수X의 정보의 양을 측정하는 한 척도입니..
Generative Adversarial Imitation Learning (GAIL) 논문리뷰 리뷰 작성: 김한결 / 석사과정 (gksruf621@postech.ac.kr) 0. Preliminary GAIL의 내용을 두문장으로 요약하자면 다음과 같습니다. 1. apprenticeship learning via inverse reinforcement learning(APP), Maximum Entropy Inverse Reinforcement Learning(MaxEntIRL) 등 기존의 IRL 알고리듬을 occupancy measure matching을 이용하여 일반화 할 수 있으며 IRL과 RL을 동시에 수행할 수 있다. 2. occupancy measure matching식에서 특수한 Regularizer를 사용함으로써 GAN과 유사한 형태의 RLㅇIRL 알고리듬을 제시한다. 이제 1번에 관..