본문 바로가기

전체 글

(17)
MJCF 파일 분석(4) - 나만의 Manipulator task를 mujoco에서 만들자 작성자 : 김한결 / 석박통합과정 (gksruf621@postech.ac.kr) MJCF 파일 분석(3)까지 내용으로 MJCF 파일에 대한 분석은 대부분 끝이 났다. 이제부터는 python으로 environment를 만들때 어떻게 해야되는 지를 살펴보면 된다.(reward design이나 observation 가져오기 등등) 연구실 형이 최근에 quadruped 로봇을 gym으로 불러오게끔 만들어 놓은게 있는데 이를 사용해보기로 했다. (MJCF 파일 분석(1)에서 최대한 library dependency를 줄이고자 한다고 해놓고...그래도 gym이 하는 일이 거의 없기 때문에...) 그래서 이번 글은 반성의 의미로 gym이 어떻게 모델을 불러오는지 간단히 정리해보려고 한다. 우선 gym은 패키지이기 때..
MJCF 파일 분석(3) - 나만의 Manipulator task를 mujoco에서 만들자 작성자 : 김한결 / 석박통합과정 (gksruf621@postech.ac.kr) MJCF 파일 분석(2)에 이어서 environment를 만들어 보려고 한다. 처음에는 아래 링크에 reference가 아주 친절하게 나와있기 때문에 만만히 봤는데, API가 C++ 기반으로 작성되었다보니 생각보다 까다로웠다. 그래도 mujoco 라이브러리안에 "robotics"나 "mujoco"를 참고하면 비교적 쉽게 따라할 수 있으며, mujoco-py 1.50.0버전 refer도 제공하고 있다. MuJoCo reference https://mujoco.readthedocs.io/en/latest/APIreference.html#mjmodel API Reference — MuJoCo documentation These a..
MJCF 파일 분석(2) - 나만의 Manipulator task를 mujoco에서 만들자 작성자 : 김한결 / 석박통합과정 (gksruf621@postech.ac.kr) 주말동안 Baxter의 mjcf를 분석하고 정리해보았다. 우선 MJCF 파일 분석(1)에서 control이 안되는 이유는 구글링해서 얻을 수 있는 XML 파일에는 actuator가 선언되어 있지 않기 때문이다. actuator를 추가한 이후에 MJCF 파일 분석(1) ./simulator로 baxter를 실행시켜보면 다음과 같다. 나만의 Task를 만들기 위해서는 다른 object를 넣어야하는데 기존 Baxter는 asset과 actuator, body등이 모두 한 XML 파일 안에 들어가 있기 때문에 추후 다른 environment를 생성하는데 까다롭다. (이런 면에서 robosuite가 잘 만들어졌다는 걸 새삼 깨닫습니다..
MJCF 파일 분석(1) - 나만의 Manipulator task를 mujoco에서 만들자 작성자 : 김한결 / 석박통합과정 (gksruf621@postech.ac.kr) MJCF에 대해 친절하게 다룬 글이 아닙니다. 대충 어떤 흐름으로 개발 하는지만 살펴주세요. 최종 목표: 나만의 Manipulator task를 mujoco에서 만들자 Baxter를 Mujoco 환경에서 사용해보고자 하는데 XML 파일을 mujoco로 simulator로 실행해보니 control이 되지 않는다. (만들어진 것만 쓴 폐해...) MJCF와 mujoco environment에 대한 이해가 필요하다고 생각해 처음부터 차근차근 공부한다 생각하며 기록을 남기려고 한다.(robotsuite를 사용하는 방법도 있지만 최대한 library dependency를 줄이고자 한다) 이번글은 다음 영상을 축약한 내용이다. http..
Variational Adversarial Imitation Learning (VAIL) 논문리뷰 리뷰 작성: 김한결 / 석사과정 (gksruf621@postech.ac.kr) Variational Adversarial Imitation Learning이 등장하는 논문의 본래 이름은 Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow입니다. Variational Discriminator Bottleneck (VDB)논문에서는 GAN과 같은 Adversarial learning methods를 제안한 것이기 때문에 Imitation Learning 뿐만 아니라 이미지 생성과 같은 다른 Task들이 존재합니다. 저희는 Imitation Le..
Trust Region Policy Optimization 논문 리뷰 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) 0. Abstract 본 논문에서는 반복적 절차(Iterative Procedure)를 통한 정책 향상 알고리즘을 소개하고 있습니다. TRPO라고 불리는 이 알고리즘은 이론적으로 정책향상을 보장하는 알고리즘을 실용적으로 적용 가능하게 근사한 것입니다. 이 알고리즘은 신경망과 같이 비선형 정책을 최적화하는데 효과적인 Natural Policy Gradient 방법과 비슷합니다. TRPO는 robotic swimming, hopping 등과 같은 다양한 Task에서 좋은 성능을 보이며 연속적인 행동 공간 제어와 관련해서 Policy Gradient의 가능성을 보여준 알고리즘입니다. 또한 TRPO는 연속적인 행동 공간뿐만 아니라 ..
Natural Policy Gradient 논문 리뷰 리뷰 작성: 김장원 / 석사과정 (jangwonkim@postech.ac.kr) 0. 시작하기 전에 알면 좋은 것들. 1 장에서는 본 논문을 읽기 전에 알아야 할 것들을 정리하였습니다. 사실 이번 장만 완벽히 이해하시면 본 논문의 대부분을 이해하셨다고 해도 과언이 아닙니다. 이 장의 내용은 Agustunus Kristiadi's Blog를 참고하여 작성하였습니다. 참고한 블로그의 링크는 https://agustinus.kristia.de/techblog/2018/03/11/fisher-information/ 입니다. 0-1. Fisher Information Matrix 첫 번째로 알아야 할 내용은 ‘피셔 정보 행렬' 입니다. 먼저 피셔 정보란 관측 가능한 확률 변수X의 정보의 양을 측정하는 한 척도입니..
Generative Adversarial Imitation Learning (GAIL) 논문리뷰 리뷰 작성: 김한결 / 석사과정 (gksruf621@postech.ac.kr) 0. Preliminary GAIL의 내용을 두문장으로 요약하자면 다음과 같습니다. 1. apprenticeship learning via inverse reinforcement learning(APP), Maximum Entropy Inverse Reinforcement Learning(MaxEntIRL) 등 기존의 IRL 알고리듬을 occupancy measure matching을 이용하여 일반화 할 수 있으며 IRL과 RL을 동시에 수행할 수 있다. 2. occupancy measure matching식에서 특수한 Regularizer를 사용함으로써 GAN과 유사한 형태의 RLㅇIRL 알고리듬을 제시한다. 이제 1번에 관..