2020년 3월~6월 약 3개월 동안, 학부 후배들에게 졸업논문 주제와 대학원 진학등과 관련하여 이것저것 고민을 들어주다보니 이 친구들이 저와 똑같이 자율주행 자동차의 핵심 기술인 Planning & Control 분야에 관심이 있다는 것을 알게 되었습니다.
그리하여, 저는 개인적으로 이 분야에서 추후 핵심 기술 중 하나로 여겨질 것이라 생각되는, 강화학습을 공부 해보라는 제의(영업?!)를 후배들에게 지속적으로(끈덕지게) 하였습니다.
영업은 성공적으로 끝났고, 그렇게 결성된 한양대학교 미래자동차공학과 학부 졸업 학년 4명과 동일과 대학원을 졸업한 저와 제친구까지 6명이서, 파이썬과 케라스로 배우는 강화학습 교재(강아지책) 그룹 스터디를 진행하기로 하였으며, 1단계인 교재 공부가 마무리 되었습니다!
저는 물론 대학원 재학중에 외부 스터디를 통해 한 번, 대학원 내부 스터디를 통해 한 번 강아지책을 공부 하였지만, 제가 영업한 후배들인 만큼 어느정도 방향 설정과 공부량 감시?!를 하기 위해 동일한 스터디원 자격으로 참가하게 되었습니다.
그룹 스터디에서의 스터디 방향 및 내용은 다음과 같이 설정했습니다.
1. 매주 사다리 타기를 통해 특정 단원을 공부하고, 자료를 만들어 세미나 형식으로 발표를 진행
==> 4명의 친구들 모두 대학원을 생각하고 있는 친구들이기 때문에 미리 랩세미나 형식의 발표를 연습시켜 주고
싶었으며, 남에게 설명을 하기 위한 공부를 할때, 더욱 깊은 이해가 된다는 6명 공동의 합의가 있었습니다.
==> 1장과 2장의 경우 어느정도 교양과 같은 내용을 다루고 있기 때문에, 1주일 만에 준비를 하기로 하였으며,
또한 발표자료 없이 책을 통해 스터디를 진행하기로 하였습니다.
2. 강아지책을 모두 공부한 뒤에, 공부한 기록을 남기기 위해 프로젝트를 수행
==> 개인적으로 공부를 하는 것 만큼, 공부한 내용을 기록으로 남기는 것 또한 중요하다고 생각했습니다.
3. 프로젝트는 동일한 환경과 시나리오에서 각자 다른 알고리즘으로 수행하여 1등에게 선물!
==> 아무래도, 경쟁요소가 있어야 사람은 열심히 하는 법이지요.. 그리고, 각자 다른 알고리즘을 공부해서 발표하면
6명이 6개의 알고리즘을 공부하는 효과가 있을거라고 생각하여 이렇게 합의가 되었습니다.
이러한 방향으로 진행될 그룹 스터디는 10월 안으로 마무리 되는 것을 목표로 하였으며, 1단계 결과물인 강아지책 교재 학습의 발표자료가 하루에 한 개씩 업로드 될 예정입니다. (09/30~10/04)
공유하는 자료가, 강아지책을 통해 개인적으로 공부하시는 분들과, 그룹 스터디를 진행해 보고자 하시는 분들께 어느정도 참고가 되었으면 좋겠습니다.
현재까지 그룹 스터디를 수행한 일정 및 내용은 다음과 같습니다.
07/21: 온라인 상으로 스터디 계획 수립(1장~2장 발표자 선정)
07/25: 오프라인 상에서 만남, 스터디 계획 구체화
07/28: 1장~2장 강화학습 개요 / 강화학습 기초 1: MDP와 벨만 방정식
(발표자료 X, 발표자 김응현)
08/03: 3장 강화학습 기초 2: 그리드월드와 다이내믹 프로그래밍
(발표자료 O, 발표자 곽지섭)
08/11: 4장 강화학습 기초 3: 그리드월드와 큐러닝
(발표자료 O, 발표자 권우진)
08/17: 5장 강화학습 심화 1: 그리드월드와 근사함수
(발표자료 O, 발표자 백승언)
08/24: (번외) ADAM, ADAGRAD 등 딥러닝에서 주로 사용되는 최적화 알고리즘 조사
(발표자료 X, 발표자 박효근)
09/01: 6장 강화학습 심화 2: 카트폴
(발표자료 O, 발표자 김응현)
09/08: 7장 강화학습 심화 3: 아타리
(발표자료 O, 발표자 류재언)
09.14: (번외) 강화학습 프로젝트를 적용할 여러 환경에 대한 조사.
(발표자료 O, 발표자 백승언)
10/06: 리눅스/파이썬 환경 설치 및 적용하고 싶은 강화학습 알고리즘 조사
(현재 진행중)