본문 바로가기
주메뉴 바로가기
검색
연구
전체자료
연구자료
간행물
- SW중심사회
- 산업연간보고서
- 승인통계보고서
- AI 브리프
- 이전 간행물
행사
전체행사
컨퍼런스
포럼
세미나
통계
통계서비스
간행물
정보
알림
SPRi
소개
- 연혁
- 인사말
- 미션+비전
- CI소개
- 조직
- 경영공시
- 오시는 길
알림
- 공지사항
- 미디어
- 정보공개
SPRi POPUP
3
ENGLISH
SPRi POPUP
3
ENGLISH
모바일 주 메뉴 닫기
전체행사
컨퍼런스
포럼
세미나
김기응 (KAIST 교수) Reinforcement Learning
강송희
역대연구원
날짜
2016.10.24
조회수
9126
공유
글자크기
+
글자크기 크게
-
글자크기 작게
김기응 (KAIST 교수) Reinforcement Learning 프로그램에 대해 일시, 장소, 주제, 발제자, 참석자로 구성된 표
일 시
2016. 10. 24(월) 09:30~12:30
장 소
소프트웨어정책연구소 회의실 (판교글로벌R&D센터)
주 제
Reinforcement Learning
발 제 자
김기응 (KAIST 교수)
참 석 자
SPRi 연구진
기계학습은 비지도학습(Unsupervised Learning), 지도학습(Supervised Learning), 강화학습(Reinforcement Learning)으로 나뉘어짐
강화학습이란, 일종의 예측하는 학습 알고리즘이 피드백을 받아 학습하는 과정
(예제) Can you beat the bandit algorithms? : 환자에게 약을 투여하는 최적 전략을 계산
현재 Greedy, Posterior Sampling, UCB, ɛ(epsilon)-greedy 알고리즘 등이 알려짐
(문제) Multi-armed Bandits이란, 여러 가지의 액션(arm)을 보상이 최적이 되도록 계산하는 문제로 Stochastic bandits(Robbins, 1952)을 기반으로 함
Policy(Allocation Strategy)를 구현하는 Bandit 알고리즘을 누적 보상을 기준으로 성능 판단 - Lower Bound:
R
T
= Ω(ln T)
강화학습의 딜레마 : Exploration-Exploitation Dilemma(새로운 것을 선택할까, 제일 좋았던 것을 선택할까?)
강화학습 알고리즘의 종류
Add noize: ɛ-greedy의 경우 (1-ɛ)확률로 과거 경험에 비추어 가장 좋았던 것을 선택하고 ɛ 확률로 다른 것을 탐색
Optimism in the Face of Uncertainty : 불확실할 때는 낙관적으로 행동하는 알고리즘으로, 이 정책을 쓰는 UCB1(Auer et al, 2002)의 경우 Lower Bound를 만족하며, 알파고에서도 사용
이 외에도 Probability Matching 군, Lookahead Search 군 등이 있음
Contextual Bandits(Langford&Zhang 2008) : 프로파일(컨텍스트) 정보가 주어진 Bandit 문제
Yahoo의 개인화 뉴스 추천 시스템에 사용된 알고리즘으로 학습에 활용된 데이터셋이 공개되어 있어 비영리 단체의 경우 재활용 가능
Policy : π : S→1,···,K(a mapping), R
T
≤2T|S|KlnK (예: LinUCB 등)
General Model of Reinforcement Learning(Russell&Novig, 2014)가 제시됨
환경 -> 인지 -> 센서 -> 에이전트 -> 액션 -> 환경
목록