7장 강화학습 심화 3: 아타리는 류재언 학생이 스터디를 리딩하였습니다. 밑의 자료는 류재언 학생이 직접 공부하고 제작한 발표자료 입니다.

 

***주의***

1) 책에서 설명을 위해 사용한 그림을 발표 당시에 설명을 위해 촬영하였으며, 블로그에 업로드하는 과정에서 저작권 문제가 발생할 수 있음을 고려하여, 그림은 가린 상태로 업로드 하게 되었습니다.

2) 책에서 사용한 코드의 경우, Github를 통해 이미 공유가 되어있기 때문에, 문제가 되지 않으리라고 생각하여 그대로 올리게 되었습니다. 문제가 생길 경우, 삭제 혹은 수정을 하도록 하겠습니다.

 

파이썬과 케라스로 배우는 강화학습 교재 내 코드는 github.com/rlcode/reinforcement-learning-kr 에 모두 존재합니다.

 

 제가 대학생일때보다 지금의 제 후배들이 더욱 잘하고 열심히 하는 것 같아 비록 학번 차이는 얼마 안나지만, 선배로서 굉장히 뿌듯했습니다.

 

 6장 강화학습 심화 2: 카트폴은 김응현 학생이 스터디를 리딩하였습니다. 밑의 자료는 김응현 학생이 직접 공부하고 제작한 발표자료 입니다.

 

***주의***

1) 책에서 설명을 위해 사용한 그림을 발표 당시에 설명을 위해 촬영하였으며, 블로그에 업로드하는 과정에서 저작권 문제가 발생할 수 있음을 고려하여, 그림은 가린 상태로 업로드 하게 되었습니다.

2) 책에서 사용한 코드의 경우, Github를 통해 이미 공유가 되어있기 때문에, 문제가 되지 않으리라고 생각하여 그대로 올리게 되었습니다. 문제가 생길 경우, 삭제 혹은 수정을 하도록 하겠습니다.

 

파이썬과 케라스로 배우는 강화학습 교재 내 코드는 github.com/rlcode/reinforcement-learning-kr 에 모두 존재합니다.

 

 제가 대학생일때보다 지금의 제 후배들이 더욱 잘하고 열심히 하는 것 같아 비록 학번 차이는 얼마 안나지만, 선배로서 굉장히 뿌듯했습니다.

 

 

 5장 강화학습 심화 1: 그리드월드와 근사함수는 제가 스터디를 리딩하였습니다. 밑의 자료는 제가 교재를 직접 공부하고 제작한 발표자료 입니다.

 

***주의***

1) 책에서 설명을 위해 사용한 그림을 발표 당시에 설명을 위해 촬영하였으며, 블로그에 업로드하는 과정에서 저작권 문제가 발생할 수 있음을 고려하여, 그림은 가린 상태로 업로드 하게 되었습니다.

2) 책에서 사용한 코드의 경우, Github를 통해 이미 공유가 되어있기 때문에, 문제가 되지 않으리라고 생각하여 그대로 올리게 되었습니다. 문제가 생길 경우, 삭제 혹은 수정을 하도록 하겠습니다.

 

파이썬과 케라스로 배우는 강화학습 교재 내 코드는 github.com/rlcode/reinforcement-learning-kr 에 모두 존재합니다.

 

 5장의 발표를 준비하면서, 교재에 생략되어 있거나, 조금 더 나누고 싶은 내용을 준비하다 보니 새롭게 알게된 점들이 보이고, 설명을 위해 준비하면서 다시금 내용을 다지게 되는 좋은 기회를 얻은 것 같습니다.

 

 4장 강화학습 기초 3: 그리드월드와 큐러닝은 권우진 학생이 스터디를 리딩하였습니다. 밑의 자료는 권우진 학생이 직접 공부하고 제작한 발표자료 입니다.

 

***주의***

1) 책에서 설명을 위해 사용한 그림을 발표 당시에 설명을 위해 촬영하였으며, 블로그에 업로드하는 과정에서 저작권 문제가 발생할 수 있음을 고려하여, 그림은 가린 상태로 업로드 하게 되었습니다.

2) 책에서 사용한 코드의 경우, Github를 통해 이미 공유가 되어있기 때문에, 문제가 되지 않으리라고 생각하여 그대로 올리게 되었습니다. 문제가 생길 경우, 삭제 혹은 수정을 하도록 하겠습니다.

 

파이썬과 케라스로 배우는 강화학습 교재 내 코드는 github.com/rlcode/reinforcement-learning-kr 에 모두 존재합니다.

 

 

 

 3장 강화학습 기초 2: 그리드월드와 다이내믹 프로그래밍은 곽지섭 학생이 스터디를 리딩하였습니다. 밑의 자료는 곽지섭 학생이 직접 공부하고 제작한 발표자료 입니다.

 

***주의***

1) 책에서 설명을 위해 사용한 그림을 발표 당시에 설명을 위해 촬영하였으며, 블로그에 업로드하는 과정에서 저작권 문제가 발생할 수 있음을 고려하여, 그림은 가린 상태로 업로드 하게 되었습니다.

2) 책에서 사용한 코드의 경우, Github를 통해 이미 공유가 되어있기 때문에, 문제가 되지 않으리라고 생각하여 그대로 올리게 되었습니다. 문제가 생길 경우, 삭제 혹은 수정을 하도록 하겠습니다.

 

파이썬과 케라스로 배우는 강화학습 교재 내 코드는 github.com/rlcode/reinforcement-learning-kr 에 모두 존재합니다.

 

 2020년 3월~6월 약 3개월 동안, 학부 후배들에게 졸업논문 주제와 대학원 진학등과 관련하여 이것저것 고민을 들어주다보니 이 친구들이 저와 똑같이 자율주행 자동차의 핵심 기술인 Planning & Control 분야에 관심이 있다는 것을 알게 되었습니다.

 

 그리하여, 저는 개인적으로 이 분야에서 추후 핵심 기술 중 하나로 여겨질 것이라 생각되는, 강화학습을 공부 해보라는 제의(영업?!)를 후배들에게 지속적으로(끈덕지게) 하였습니다.

 

강화학습을 이용한 자율주행 자동차의 Planning 관련 연구 (출처: Zhang, P., Xiong, L., Yu, Z., Fang, P., Yan, S., Yao, J., & Zhou, Y. (2019). Reinforcement learning-based end-to-end parking for automatic parking system.  Sensors ,  19 (18), 3996.)

 

 영업은 성공적으로 끝났고, 그렇게 결성된 한양대학교 미래자동차공학과 학부 졸업 학년 4명과 동일과 대학원을 졸업한 저와 제친구까지 6명이서, 파이썬과 케라스로 배우는 강화학습 교재(강아지책) 그룹 스터디를 진행하기로 하였으며, 1단계인 교재 공부가 마무리 되었습니다!

이웅원님 등이 집필한 위키북스의 '파이썬과 케라스로 배우는 강화학습' 교재

 

 저는 물론 대학원 재학중에 외부 스터디를 통해 한 번, 대학원 내부 스터디를 통해 한 번 강아지책을 공부 하였지만, 제가 영업한 후배들인 만큼 어느정도 방향 설정과 공부량 감시?!를 하기 위해 동일한 스터디원 자격으로 참가하게 되었습니다.

 

그룹 스터디에서의 스터디 방향 및 내용은 다음과 같이 설정했습니다.

 

1. 매주 사다리 타기를 통해 특정 단원을 공부하고, 자료를 만들어 세미나 형식으로 발표를 진행

   ==> 4명의 친구들 모두 대학원을 생각하고 있는 친구들이기 때문에 미리 랩세미나 형식의 발표를 연습시켜 주고
         싶었으며, 남에게 설명을 하기 위한 공부를 할때, 더욱 깊은 이해가 된다는 6명 공동의 합의가 있었습니다.

 

   ==> 1장과 2장의 경우 어느정도 교양과 같은 내용을 다루고 있기 때문에, 1주일 만에 준비를 하기로 하였으며,
          또한 발표자료 없이 책을 통해 스터디를 진행하기로 하였습니다.

 

2. 강아지책을 모두 공부한 뒤에, 공부한 기록을 남기기 위해 프로젝트를 수행

   ==> 개인적으로 공부를 하는 것 만큼, 공부한 내용을 기록으로 남기는 것 또한 중요하다고 생각했습니다.

 

3. 프로젝트는 동일한 환경과 시나리오에서 각자 다른 알고리즘으로 수행하여 1등에게 선물!

   ==> 아무래도, 경쟁요소가 있어야 사람은 열심히 하는 법이지요.. 그리고, 각자 다른 알고리즘을 공부해서 발표하면
          6명이 6개의 알고리즘을 공부하는 효과가 있을거라고 생각하여 이렇게 합의가 되었습니다.

 

 이러한 방향으로 진행될 그룹 스터디는 10월 안으로 마무리 되는 것을 목표로 하였으며, 1단계 결과물인 강아지책 교재 학습의 발표자료가 하루에 한 개씩 업로드 될 예정입니다. (09/30~10/04)

 

 공유하는 자료가, 강아지책을 통해 개인적으로 공부하시는 분들과, 그룹 스터디를 진행해 보고자 하시는 분들께 어느정도 참고가 되었으면 좋겠습니다.

 

현재까지 그룹 스터디를 수행한 일정 및 내용은 다음과 같습니다.

 

07/21: 온라인 상으로 스터디 계획 수립(1장~2장 발표자 선정)

 

07/25: 오프라인 상에서 만남, 스터디 계획 구체화

 

07/28: 1장~2장 강화학습 개요 / 강화학습 기초 1: MDP와 벨만 방정식
         (발표자료 X, 발표자 김응현)

 

08/03: 3장 강화학습 기초 2: 그리드월드와 다이내믹 프로그래밍

         (발표자료 O, 발표자 곽지섭)

 

08/11: 4장 강화학습 기초 3: 그리드월드와 큐러닝

         (발표자료 O, 발표자 권우진)

 

08/17: 5장 강화학습 심화 1: 그리드월드와 근사함수

         (발표자료 O, 발표자 백승언)

 

08/24: (번외) ADAM, ADAGRAD 등 딥러닝에서 주로 사용되는 최적화 알고리즘 조사

         (발표자료 X, 발표자 박효근)

 

09/01: 6장 강화학습 심화 2: 카트폴

         (발표자료 O, 발표자 김응현)

 

09/08: 7장 강화학습 심화 3: 아타리

         (발표자료 O, 발표자 류재언)

 

09.14: (번외) 강화학습 프로젝트를 적용할 여러 환경에 대한 조사.

         (발표자료 O, 발표자 백승언)

 

10/06: 리눅스/파이썬 환경 설치 및 적용하고 싶은 강화학습 알고리즘 조사

         (현재 진행중)

 

+ Recent posts