SPRi - 소프트웨어정책연구소 : 세미나

이창기(강원대학교 교수) 딥러닝 기반의 자연어처리 기술

서영희 역대연구원

2017.07.19

17174

글자크기

이창기(강원대학교 교수) 딥러닝 기반의 자연어처리 기술 강연안내에 대해 일시, 장소, 주제, 발제자, 참석자로 구성된 표
일 시	2017. 7. 17(월) 10:00~14:30
장 소	소프트웨어정책연구소 회의실 (판교글로벌R&D센터)
주 제	딥러닝 기반의 자연어처리 기술
발 제 자	이창기(강원대학교 교수)
참 석 자	SPRi 연구진

[자연어처리 소개]
- 자연언어 정의
- 자연언어는 특정 집단에서 사용되는 모국어의 집합(영어, 한국어, 중국어 등)으로 모호성, 애매성을 가지고 있음, 이러한 애매성을 해결하는 것이 자연어처리의 목표
- 인공언어는 특정 목적을 위해 인위적으로 만든 언어(예:프로그래밍 언어)로 자연언어에 비해 엄격한 구문을 가짐
- 자연언어처리(Natural Language Processing, 이하 NLP)는 컴퓨터를 통하여 인간의 언어를 이해하고 처리하는 학문 분야
- 기계번역, 자동통역, 정보검색, 질의응답, 문서요약, 철자오류 수정 등이 존재
- - Google, Naver, IBM Watson, Apple Siri 등
- 자연언어 분석 단계
- 자연언어문장으로부터 형태소 분석(Morphological Analysis) → 구문 분석(Syntax Analysis) → 의미 분석 (Semantic Analysis) → 화용 분석(Pragmatic Analysis)을 통해 분석 결과 도출
- -형태소분석
- > “감기는”의 결과는 감기(명사:cold) + 는(조사)
- > 감(동사 어간) + 기(명사화 어미) + 는(조사)
- > 감(동사 어간) + 기는(어미)
- (ex) Time flies like light 2가지 이상 tree
- A man see a woman with a telescope 2가지 이상 tree
- 의미분석: “말이 많다” → 말: horse or speech
- 화용분석: “A씨는… B씨는 … 그는 …”에서 그: A or B인지 분석하는 것
- 자연어 처리의 특징
- 자연언어 분석에는 애매성이 A존재하며 이러한 문제를 분류문제로 변환하고 머신러닝을 활용하여 해결하기 위해 다양한 시도를 수행하고 있음
- NLP Dataset은 고차원적인 특성을 가지며 차원의 축소를 위해 문장 속 단어들 사이의 관계를 자율학습(Unsupervised Learning)방식으로 분석하여 특징화 하는 Word Embedding이 필요
- 많은 NLP문제는 Sequence labeling tasks나 Sequence-to-sequence tasks로 볼 수 있음
[자연어 처리를 위한 딥러닝 소개]
- 성능을 위해서는 다량의 학습데이터가 필요
- 워딩 임베딩을 통해 비슷한 효과를 볼 수 있음
- - 의미 기반의 저차원 벡터로 변환, 대량으로 학습데이터를 만들 수 있는 차원에서 속도가 빨라짐
- Recurrent Neural Network(RNN) : 자연어 처리에서는 단어의 열이 입력되나 단어의 열이 개수가 정해져 있지 않아서 Recurrent Neural Network을 활용, 시퀀스 task에 특화됨
- Long Short-term Memory RNN : RNN을 사용하는 경우, 문장의 길이가 길어지면 앞에 있는 History 정보가 감소해서 뒤에 영향을 미치지 못하는 경우가 생김, 이를 해결하기 위해 게이트를 도입하여 멀리 보내야 하는 정보는 희석시키지 않도록 Long Short-term Memory(LSTM) 게이트 추가
- 뉴럴 네트웍 안에 LSTM RNN을 쓰고 있음, LSTM이 속도가 느리기 때문에 성능 개선을 한 것이 GRU(Gated Recurrent Unit)
[딥러닝 기반의 자연어처리]
- Classification Problem
- Sequence Labeling Problem
- Sequence-to-Sequence Learning
- Pointer Network
- Machine Reading Comprehension
- - 각 모델링에 대한 자세한 내용과 실험 결과는 공개된 발표자료 참고
[결론]
- 전이 기반의 한국어 의존구문 분석이나 상호참조를 분류문제로 전환하여 딥러닝 기반 한국어 상호참조 해결을 하는 등 한국어 자연어 처리를 위하여 딥러닝 기반의 다양한 알고리즘의 결합하여 모델링하고 점진적인 성능 개선효과를 이루어 내고 있음
- 또한 빠른 속도로 발전하고 있는 인공지능 기반 다양한 연구 결과의 활용 및 확산 및 발전을 위해서는 연구 결과를 오픈소스로 공유하는 것이 중요한데, 이를 위해서는 별도의 인센티브제공 등의 정부차원의 지원이 필요할 것
- 초청세미나 170717 1
  
  초청세미나 170717 2
  
  초청세미나 170717 3
  
  $(".anyslider").anyslider({ animation : "fade", showBullets : false }); $(".anyslider").hover( function() { $(".anyslider").children("a").css("filter", "alpha(opacity=1)"); $(".anyslider").children("a").css("opacity", 1); }, function() { $(".anyslider").children("a").css("filter", "alpha(opacity=0)"); $(".anyslider").children("a").css("opacity", 0); } ); $(".anyslider").children("a").focus(function(){ $(".anyslider").children("a").css("filter", "alpha(opacity=1)"); $(".anyslider").children("a").css("opacity", 1); }).blur(function(){ $(".anyslider").children("a").css("filter", "alpha(opacity=0)"); $(".anyslider").children("a").css("opacity", 0); }); $(function () { console.log($(".anyslider").height($(".anyslider > .as-slide-inner >div:visible").eq(0).height())); });