본문 바로가기

Paper Review

(9)
Language Guided Skill Discovery(LGSD) 리뷰 리뷰 작성 : 김한결(https://www.linkedin.com/in/hangyeol-kim-227154228/) 본 논문을 읽기전에 알면 좋은 논문들1. Behavior From the Void: Unsupervised Active Pre-Training - Hao Liu, Pieter Abbeel  0. PreliminarySkill discovery란 explicit한 rewards 없이 다양한 스킬을 익힐 수 있는 학습 형태를 의미한다.그런 의미에서 unsupervised RL과 의미적으로 유사한 점이 있다.그러나 일반적인 unsuperivsed RL들은 의미없이 다양한 곳을 탐험하는 학습하는 것에 초점이 맞춰져있다.본 논문은 "Semantic diversity"라는 것을 도입해서 의미론적인 다..
Adversarial Intrinsic Motivation for Reinforcement Learning (2021) 논문 리뷰 리뷰 작성: 김장원 (jangwonkim@postech.ac.kr)1. Introduction최근의 강화학습은 바둑, 아타리 게임, 로봇의 locomotion 등 다양한 환경에서 성공적으로 동작할 수 있음을 보였다. 그러나 보상이 희소한 환경에서는 에이전트 학습이 까다로울 수 있다. 이러한 환경에서 유의미한 학습을 하기 위해서는 더 많고 효율적인 탐험이 필요하다.보상이 희소한 환경에서 에이전트의 학습 속도를 높이기 위한 여러 연구들이 진행되었다. 희소한 보상 함수를 수정하여 dense하게 만들거나 (reward shaping), 내재적 보상 (intrinsic reward)를 부여하는 것을 예로 들 수 있다. 이 논문 역시 일종의 내재적 보상을 활용하여 희소 보상 환경에서 에이전트를 학습시킨다. 이 때 ..
Multi-Agent Constrained Policy Optimisation(MACPO, MAPPO-Lagrangian) 논문리뷰 리뷰 작성 : 김한결 본 논문을 읽기전에 알면 좋은 논문들 1. Trust Region Policy Optimization - Schulman et al. 2015 2. Settling the Variance of Multi-Agent Policy Gradients - Kuba et al. 2021b 3. Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning - Kuba et al. 2021a 0. Preliminary 본 논문을 요약하자면 다음과 같습니다. 1. Constrained Markov Decision Processes (CMDP)에서 정책 업데이트가 될수록 cost가 작아지는 Multi-Agent Constrained ..
Planning with Goal-Conditioned Policies (2019) 논문 리뷰 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) 1. Introduction 최근의 강화학습 알고리즘은 에이전트가 환경과의 직접적인 상호작용을 통해 복잡한 스킬들을 배울 수 있음을 증명하였다. 그러나 일련의 행동들이 연속적으로 이어진 상태로 오랜 시간 동안 진행되는 경우 (Temporally extended sequential decision making case), 에이전트는 현재 행동의 결과가 미래에 어떻게 영향을 미칠지 고려해야 하며, 긴 시간 동안 계획을 세우고 실행해야 한다. 본 논문에서는 이를 위해 플래닝을 활용한 GCRL 알고리즘을 제안한다. 당연하게도 플래닝이 성공적으로 동작하려면 정확한 모델이 요구된다. 전문 지식 등을 활용하여 모델을 직접 설계한다면 그 ..
Reference Learning and Control as Probabilistic Inference: Tutorial and Review 논문 리뷰 리뷰 작성: 김장원 (jangwonkim@postech.ac.kr) 논문 리뷰 슬라이드 작업본입니다.https://www.slideshare.net/ssuserbd1647/control-as-inferencepptx
Variational Adversarial Imitation Learning (VAIL) 논문리뷰 리뷰 작성: 김한결 / 석사과정 (gksruf621@postech.ac.kr) Variational Adversarial Imitation Learning이 등장하는 논문의 본래 이름은 Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow입니다. Variational Discriminator Bottleneck (VDB)논문에서는 GAN과 같은 Adversarial learning methods를 제안한 것이기 때문에 Imitation Learning 뿐만 아니라 이미지 생성과 같은 다른 Task들이 존재합니다. 저희는 Imitation Le..
Trust Region Policy Optimization 논문 리뷰 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) 0. Abstract 본 논문에서는 반복적 절차(Iterative Procedure)를 통한 정책 향상 알고리즘을 소개하고 있습니다. TRPO라고 불리는 이 알고리즘은 이론적으로 정책향상을 보장하는 알고리즘을 실용적으로 적용 가능하게 근사한 것입니다. 이 알고리즘은 신경망과 같이 비선형 정책을 최적화하는데 효과적인 Natural Policy Gradient 방법과 비슷합니다. TRPO는 robotic swimming, hopping 등과 같은 다양한 Task에서 좋은 성능을 보이며 연속적인 행동 공간 제어와 관련해서 Policy Gradient의 가능성을 보여준 알고리즘입니다. 또한 TRPO는 연속적인 행동 공간뿐만 아니라 ..
Natural Policy Gradient 논문 리뷰 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) 0. 시작하기 전에 알면 좋은 것들. 1 장에서는 본 논문을 읽기 전에 알아야 할 것들을 정리하였습니다. 사실 이번 장만 완벽히 이해하시면 본 논문의 대부분을 이해하셨다고 해도 과언이 아닙니다. 이 장의 내용은 Agustunus Kristiadi's Blog를 참고하여 작성하였습니다. 참고한 블로그의 링크는 https://agustinus.kristia.de/techblog/2018/03/11/fisher-information/ 입니다. 0-1. Fisher Information Matrix 첫 번째로 알아야 할 내용은 ‘피셔 정보 행렬' 입니다. 먼저 피셔 정보란 관측 가능한 확률 변수X의 정보의 양을 측정하는 한 척도입니..