본문 바로가기

전체 글

(20)
Language Guided Skill Discovery(LGSD) 리뷰 리뷰 작성 : 김한결(https://www.linkedin.com/in/hangyeol-kim-227154228/) 본 논문을 읽기전에 알면 좋은 논문들1. Behavior From the Void: Unsupervised Active Pre-Training - Hao Liu, Pieter Abbeel  0. PreliminarySkill discovery란 explicit한 rewards 없이 다양한 스킬을 익힐 수 있는 학습 형태를 의미한다.그런 의미에서 unsupervised RL과 의미적으로 유사한 점이 있다.그러나 일반적인 unsuperivsed RL들은 의미없이 다양한 곳을 탐험하는 학습하는 것에 초점이 맞춰져있다.본 논문은 "Semantic diversity"라는 것을 도입해서 의미론적인 다..
Adversarial Intrinsic Motivation for Reinforcement Learning (2021) 논문 리뷰 리뷰 작성: 김장원 (jangwonkim@postech.ac.kr)1. Introduction최근의 강화학습은 바둑, 아타리 게임, 로봇의 locomotion 등 다양한 환경에서 성공적으로 동작할 수 있음을 보였다. 그러나 보상이 희소한 환경에서는 에이전트 학습이 까다로울 수 있다. 이러한 환경에서 유의미한 학습을 하기 위해서는 더 많고 효율적인 탐험이 필요하다.보상이 희소한 환경에서 에이전트의 학습 속도를 높이기 위한 여러 연구들이 진행되었다. 희소한 보상 함수를 수정하여 dense하게 만들거나 (reward shaping), 내재적 보상 (intrinsic reward)를 부여하는 것을 예로 들 수 있다. 이 논문 역시 일종의 내재적 보상을 활용하여 희소 보상 환경에서 에이전트를 학습시킨다. 이 때 ..
CO-GYM: 빠르고 효율적인 강화학습 프레임워크 작성자: 김장원 / 박사과정 (jangwonkim@postech.ac.kr) CO-GYM: High-Performance & Researcher-Friendly Reinforcement Learning Algorithm Suites링크: https://github.com/jangwonkim-cocel/CO_GYM 쉽게 적용할 수 있는 빠르고 강력한 분산 강화학습 프레임워크를 구축해 보았습니다. 본 프레임워크는 처음 강화학습을 시작하시는 분들부터 현업에 종사하고 계시는 엔지니어, 연구자분들에게 일차적으로 빠르게 강화학습 기반 정책을 구현해 보는 데 도움이 될 것이라 믿습니다.CO-GYM은 고성능이며 연구자 친화적인 강화 학습 알고리즘 모음입니다. 모든 알고리즘은 독립적인 파이썬 파일로 작성되어 있으며, 다..
Multi-Agent Constrained Policy Optimisation(MACPO, MAPPO-Lagrangian) 논문리뷰 리뷰 작성 : 김한결 본 논문을 읽기전에 알면 좋은 논문들 1. Trust Region Policy Optimization - Schulman et al. 2015 2. Settling the Variance of Multi-Agent Policy Gradients - Kuba et al. 2021b 3. Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning - Kuba et al. 2021a 0. Preliminary 본 논문을 요약하자면 다음과 같습니다. 1. Constrained Markov Decision Processes (CMDP)에서 정책 업데이트가 될수록 cost가 작아지는 Multi-Agent Constrained ..
Planning with Goal-Conditioned Policies (2019) 논문 리뷰 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) 1. Introduction 최근의 강화학습 알고리즘은 에이전트가 환경과의 직접적인 상호작용을 통해 복잡한 스킬들을 배울 수 있음을 증명하였다. 그러나 일련의 행동들이 연속적으로 이어진 상태로 오랜 시간 동안 진행되는 경우 (Temporally extended sequential decision making case), 에이전트는 현재 행동의 결과가 미래에 어떻게 영향을 미칠지 고려해야 하며, 긴 시간 동안 계획을 세우고 실행해야 한다. 본 논문에서는 이를 위해 플래닝을 활용한 GCRL 알고리즘을 제안한다. 당연하게도 플래닝이 성공적으로 동작하려면 정확한 모델이 요구된다. 전문 지식 등을 활용하여 모델을 직접 설계한다면 그 ..
Nips challenge - Real Robot Challenge 2022 도전기 (3) 참여자 : 백종찬(POSTECH), 김한결(POSTECH), 권우경(ETRI & Polaris 3D) 작성자 : 김한결 / 석사과정(gksruf621@postech.ac.kr) 지난 포스터에서는 RRC 2022의 문제 설계에 대해 살펴보았다. 이번 포스터에서는 시뮬레이션 단계에서 테스트 해본 알고리듬들을 소개할 예정이다. 알고리듬을 소개하기 이전에 데이터에 대해 잠시 언급해야할 부분이 있다. rrc_2022_datasets 패키지를 다운 받으면 TriFingerDatasetEnv에 접근할 수 있고, D4RL과 동일하게 get_dataset() 매소드를 통해 데이터 접근이 가능하다. 단, TriFingerDatasetEnv를 evaluation하는 과정에서 얻는 데이터들은 오직 평가를 위해서만 사용되어야하..
Nips challenge - Real Robot Challenge 2022 도전기 (2) 참여자 : 백종찬(POSTECH), 김한결(POSTECH), 권우경(ETRI & Polaris 3D) 작성자 : 김한결 / 석사과정(gksruf621@postech.ac.kr) Real Robot Challenge 2022 (RRC 2022) Learn Dexterous Manipulation on a Real Robot 지난 포스터에서는 RRC 2022개요에 대해 설명하였다. 이번 포스터에서는 강화학습 관점의 문제 설계를 살펴볼 내용이다. Observation space robot_observation position velocity torque fingertip_force fingertip_position fingertip_velocity robot_id object_observation positi..
Nips challenge - Real Robot Challenge 2022 도전기 (1) 참여자 : 백종찬(POSTECH), 김한결(POSTECH), 권우경(ETRI & Polaris 3D) 작성자 : 김한결 / 석사과정(gksruf621@postech.ac.kr) Real Robot Challenge 2022 Learn Dexterous Manipulation on a Real Robot 혁신인재 4.0 수업 일환으로 연구실 형, 참여 기업 연구원님과 함께 Nips challenge에 참여하기로 했다. 챌린지의 목표는 dexterous manipulation task(push & lift)를 offline 강화학습 또는 imitation learning으로 높은 점수를 얻는것이다. push task는 목표하는 지점에 큐브를 옮기는 task, lift task는 특정 pos로 큐브를 들어올리..