본문 바로가기

전체 글

(17)
Multi-Agent Constrained Policy Optimisation(MACPO, MAPPO-Lagrangian) 논문리뷰 리뷰 작성 : 김한결 본 논문을 읽기전에 알면 좋은 논문들 1. Trust Region Policy Optimization - Schulman et al. 2015 2. Settling the Variance of Multi-Agent Policy Gradients - Kuba et al. 2021b 3. Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning - Kuba et al. 2021a 0. Preliminary 본 논문을 요약하자면 다음과 같습니다. 1. Constrained Markov Decision Processes (CMDP)에서 정책 업데이트가 될수록 cost가 작아지는 Multi-Agent Constrained ..
Planning with Goal-Conditioned Policies (2019) 논문 리뷰 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) 1. Introduction 최근의 강화학습 알고리즘은 에이전트가 환경과의 직접적인 상호작용을 통해 복잡한 스킬들을 배울 수 있음을 증명하였다. 그러나 일련의 행동들이 연속적으로 이어진 상태로 오랜 시간 동안 진행되는 경우 (Temporally extended sequential decision making case), 에이전트는 현재 행동의 결과가 미래에 어떻게 영향을 미칠지 고려해야 하며, 긴 시간 동안 계획을 세우고 실행해야 한다. 본 논문에서는 이를 위해 플래닝을 활용한 GCRL 알고리즘을 제안한다. 당연하게도 플래닝이 성공적으로 동작하려면 정확한 모델이 요구된다. 전문 지식 등을 활용하여 모델을 직접 설계한다면 그 ..
Nips challenge - Real Robot Challenge 2022 도전기 (3) 참여자 : 백종찬(POSTECH), 김한결(POSTECH), 권우경(ETRI & Polaris 3D) 작성자 : 김한결 / 석사과정(gksruf621@postech.ac.kr) 지난 포스터에서는 RRC 2022의 문제 설계에 대해 살펴보았다. 이번 포스터에서는 시뮬레이션 단계에서 테스트 해본 알고리듬들을 소개할 예정이다. 알고리듬을 소개하기 이전에 데이터에 대해 잠시 언급해야할 부분이 있다. rrc_2022_datasets 패키지를 다운 받으면 TriFingerDatasetEnv에 접근할 수 있고, D4RL과 동일하게 get_dataset() 매소드를 통해 데이터 접근이 가능하다. 단, TriFingerDatasetEnv를 evaluation하는 과정에서 얻는 데이터들은 오직 평가를 위해서만 사용되어야하..
Nips challenge - Real Robot Challenge 2022 도전기 (2) 참여자 : 백종찬(POSTECH), 김한결(POSTECH), 권우경(ETRI & Polaris 3D) 작성자 : 김한결 / 석사과정(gksruf621@postech.ac.kr) Real Robot Challenge 2022 (RRC 2022) Learn Dexterous Manipulation on a Real Robot 지난 포스터에서는 RRC 2022개요에 대해 설명하였다. 이번 포스터에서는 강화학습 관점의 문제 설계를 살펴볼 내용이다. Observation space robot_observation position velocity torque fingertip_force fingertip_position fingertip_velocity robot_id object_observation positi..
Nips challenge - Real Robot Challenge 2022 도전기 (1) 참여자 : 백종찬(POSTECH), 김한결(POSTECH), 권우경(ETRI & Polaris 3D) 작성자 : 김한결 / 석사과정(gksruf621@postech.ac.kr) Real Robot Challenge 2022 Learn Dexterous Manipulation on a Real Robot 혁신인재 4.0 수업 일환으로 연구실 형, 참여 기업 연구원님과 함께 Nips challenge에 참여하기로 했다. 챌린지의 목표는 dexterous manipulation task(push & lift)를 offline 강화학습 또는 imitation learning으로 높은 점수를 얻는것이다. push task는 목표하는 지점에 큐브를 옮기는 task, lift task는 특정 pos로 큐브를 들어올리..
Mujoco 환경 세팅 - 참고용 Mujoco 환경 세팅 1. Anaconda 설치 1.1 www.anaconda.com/products/individual 1.2 본인 컴퓨터와 호환되는 버전 찾아서 다운로드(일반적으로 list중에 가장 위에서 있는 것 사용하면 됩니다) (1.2.1 sha256sum 으로 무결성 확인) 1.3 sudo bash [Anaconda....다운받은 sh 이름] 중간중간 나오는 것들 Enter 혹은 YES (첫 Yes를 입력하는 부분에서 현재 유저 디렉토리가 맞는지 확인 필요. 종종 그냥 root 로 되어 있는 경우 있음. root인 경우 /home/[유저 이름]/anaconda3 를 입력해준다) e.g. [/root/anaconda3] >>> /home/ai1/anaconda3 1.4 설치가 완료된 후 Ana..
Reference Learning and Control as Probabilistic Inference: Tutorial and Review 논문 리뷰 블로그 작성하는데 시간이 많이 걸릴 것 같아 완성된 슬라이드 작업본을 미리 올립니다. https://www.slideshare.net/ssuserbd1647/control-as-inferencepptx ---------------------------------------------------------------------------------------- 작성 중... 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) Reference Learning and Control as Probabilistic Inference: Tutorial and Review 논문 리뷰 저자: Sergey Levine https://arxiv.org/abs/1805.00909 1. 그래프 ..
MJCF 파일 분석(5) - 나만의 Manipulator task를 mujoco에서 만들자 작성자 : 김한결 / 석박통합과정 (gksruf621@postech.ac.kr) 원래는 XML 파일과 Env가 전부 포함된 파일을 git에 올리고 공개하려고 했는데 비슷한 내용으로 일을 하게되어 추후 공개 허락을 받고 공개하도록 하겠습니다. 그래도 여기까지 읽어주신 분들을 위해 대략적으로 어떤 방식으로 만들었는지를 공유하려고 합니다. MJCF 파일 분석(4)에서 언급했던 의 Indy7_OpenDoorEnv class를 담은 python 파일에 필요한 내용들을 살펴보겠습니다. 1. mujoco_env.MujocoEnv 2. _get_obs 3. step 4. reset_model 5. viewer_setup 6. reward shaping 이미 gym에 존재한 파일들을 살펴보시면 위 내용은 쉽게 파악하실 ..