프로그램
일 시 2016. 10. 24(월) 09:30~12:30
장 소 소프트웨어정책연구소 회의실 (판교글로벌R&D센터)
주 제 Reinforcement Learning
발 제 자 김기응 (KAIST 교수)
참 석 자 SPRi 연구진

ㅇ 기계학습은 비지도학습(Unsupervised Learning), 지도학습(Supervised Learning), 강화학습(Reinforcement Learning)으로 나뉘어짐

ㅇ 강화학습이란, 일종의 예측하는 학습 알고리즘이 피드백을 받아 학습하는 과정

ㅇ (예제) Can you beat the bandit algorithms? : 환자에게 약을 투여하는 최적 전략을 계산

- 현재 Greedy, Posterior Sampling, UCB, ɛ(epsilon)-greedy 알고리즘 등이 알려짐

ㅇ (문제) Multi-armed Bandits이란, 여러 가지의 액션(arm)을 보상이 최적이 되도록 계산하는 문제로 Stochastic bandits(Robbins, 1952)을 기반으로 함

- Policy(Allocation Strategy)를 구현하는 Bandit 알고리즘을 누적 보상을 기준으로 성능 판단
- Lower Bound:

 

RT = Ω(ln T)

 

ㅇ 강화학습의 딜레마 : Exploration-Exploitation Dilemma(새로운 것을 선택할까, 제일 좋았던 것을 선택할까?)

ㅇ 강화학습 알고리즘의 종류

- Add noize: ɛ-greedy의 경우 (1-ɛ)확률로 과거 경험에 비추어 가장 좋았던 것을 선택하고 ɛ 확률로 다른 것을 탐색
- Optimism in the Face of Uncertainty : 불확실할 때는 낙관적으로 행동하는 알고리즘으로, 이 정책을 쓰는 UCB1(Auer et al, 2002)의 경우 Lower Bound를 만족하며, 알파고에서도 사용
- 이 외에도 Probability Matching 군, Lookahead Search 군 등이 있음

ㅇ Contextual Bandits(Langford&Zhang 2008) : 프로파일(컨텍스트) 정보가 주어진 Bandit 문제

- Yahoo의 개인화 뉴스 추천 시스템에 사용된 알고리즘으로 학습에 활용된 데이터셋이 공개되어 있어 비영리 단체의 경우 재활용 가능
- Policy : π : S→1,···,K(a mapping), RT ≤2T|S|KlnK (예: LinUCB 등)

ㅇ General Model of Reinforcement Learning(Russell&Novig, 2014)가 제시됨

환경 -> 인지 -> 센서 -> 에이전트 -> 액션 -> 환경