SPRi - 소프트웨어정책연구소

김기응 (KAIST 교수) Reinforcement Learning

강송희 역대연구원

2016.10.24

11889

글자크기

김기응 (KAIST 교수) Reinforcement Learning 프로그램에 대해 일시, 장소, 주제, 발제자, 참석자로 구성된 표
일 시	2016. 10. 24(월) 09:30~12:30
장 소	소프트웨어정책연구소 회의실 (판교글로벌R&D센터)
주 제	Reinforcement Learning
발 제 자	김기응 (KAIST 교수)
참 석 자	SPRi 연구진

- 기계학습은 비지도학습(Unsupervised Learning), 지도학습(Supervised Learning), 강화학습(Reinforcement Learning)으로 나뉘어짐
- 강화학습이란, 일종의 예측하는 학습 알고리즘이 피드백을 받아 학습하는 과정
- (예제) Can you beat the bandit algorithms? : 환자에게 약을 투여하는 최적 전략을 계산
- 현재 Greedy, Posterior Sampling, UCB, ɛ(epsilon)-greedy 알고리즘 등이 알려짐
- (문제) Multi-armed Bandits이란, 여러 가지의 액션(arm)을 보상이 최적이 되도록 계산하는 문제로 Stochastic bandits(Robbins, 1952)을 기반으로 함
- Policy(Allocation Strategy)를 구현하는 Bandit 알고리즘을 누적 보상을 기준으로 성능 판단 - Lower Bound:
- R_T = Ω(ln T)
- 강화학습의 딜레마 : Exploration-Exploitation Dilemma(새로운 것을 선택할까, 제일 좋았던 것을 선택할까?)
- 강화학습 알고리즘의 종류
- Add noize: ɛ-greedy의 경우 (1-ɛ)확률로 과거 경험에 비추어 가장 좋았던 것을 선택하고 ɛ 확률로 다른 것을 탐색
- Optimism in the Face of Uncertainty : 불확실할 때는 낙관적으로 행동하는 알고리즘으로, 이 정책을 쓰는 UCB1(Auer et al, 2002)의 경우 Lower Bound를 만족하며, 알파고에서도 사용
- 이 외에도 Probability Matching 군, Lookahead Search 군 등이 있음
- Contextual Bandits(Langford&Zhang 2008) : 프로파일(컨텍스트) 정보가 주어진 Bandit 문제
- Yahoo의 개인화 뉴스 추천 시스템에 사용된 알고리즘으로 학습에 활용된 데이터셋이 공개되어 있어 비영리 단체의 경우 재활용 가능
- Policy : π : S→1,···,K(a mapping), R_T ≤2T|S|KlnK (예: LinUCB 등)
- General Model of Reinforcement Learning(Russell&Novig, 2014)가 제시됨
- 환경 -> 인지 -> 센서 -> 에이전트 -> 액션 -> 환경