강연안내
일 시 2017. 7. 17(월) 10:00~14:30
장 소 소프트웨어정책연구소 회의실 (판교글로벌R&D센터)
주 제 딥러닝 기반의 자연어처리 기술
발 제 자 이창기(강원대학교 교수)
참 석 자 SPRi 연구진

초청강연 170717 이창기(강원대) (다운로드 : 1431회)

[자연어처리 소개]

◦자연언어 정의
 - 자연언어는 특정 집단에서 사용되는 모국어의 집합(영어, 한국어, 중국어 등)으로 모호성, 애매성을 가지고 있음, 이러한 애매성을 해결하는 것이 자연어처리의 목표
 - 인공언어는 특정 목적을 위해 인위적으로 만든 언어(예:프로그래밍 언어)로 자연언어에 비해 엄격한 구문을 가짐

◦자연언어처리(Natural Language Processing, 이하 NLP)는 컴퓨터를 통하여 인간의 언어를 이해하고 처리하는 학문 분야
 - 기계번역, 자동통역, 정보검색, 질의응답, 문서요약, 철자오류 수정 등이 존재
  . Google, Naver, IBM Watson, Apple Siri 등

◦자연언어 분석 단계
 - 자연언어문장으로부터 형태소 분석(Morphological Analysis) → 구문 분석(Syntax Analysis) → 의미 분석 (Semantic Analysis) → 화용 분석(Pragmatic Analysis)을 통해 분석 결과 도출
  . 형태소분석 
    > “감기는”의 결과는 감기(명사:cold) + 는(조사)
    > 감(동사 어간) + 기(명사화 어미) + 는(조사)
    > 감(동사 어간) + 기는(어미) 
  . 구문분석 : Structural Ambiguities
    (ex) Time flies like light 2가지 이상 tree
        A man see a woman with a telescope  2가지 이상 tree
  . 의미분석: “말이 많다” → 말: horse or speech
  . 화용분석: “A씨는… B씨는 … 그는 …”에서 그: A or B인지 분석하는 것 

◦자연어 처리의 특징
  - 자연언어 분석에는 애매성이 존재하며 이러한 문제를 분류문제로 변환하고 머신러닝을 활용하여 해결하기 위해 다양한 시도를 수행하고 있음
  - NLP Dataset은 고차원적인 특성을 가지며 차원의 축소를 위해 문장 속 단어들 사이의 관계를 자율학습(Unsupervised Learning)방식으로 분석하여 특징화 하는 Word Embedding이 필요 
  - 많은 NLP문제는 Sequence labeling tasks나 Sequence-to-sequence tasks로 볼 수 있음 

[자연어 처리를 위한 딥러닝 소개]

  - 성능을 위해서는 다량의 학습데이터가 필요
  - 워딩 임베딩을 통해 비슷한 효과를 볼 수 있음
   . 의미 기반의 저차원 벡터로 변환, 대량으로 학습데이터를 만들 수 있는 차원에서 속도가 빨라짐
  - Recurrent Neural Network(RNN) : 자연어 처리에서는 단어의 열이 입력되나 단어의 열이 개수가 정해져 있지 않아서 Recurrent Neural Network을 활용, 시퀀스 task에 특화됨 
  - Long Short-term Memory RNN : RNN을 사용하는 경우, 문장의 길이가 길어지면 앞에 있는 History 정보가 감소해서 뒤에 영향을 미치지 못하는 경우가 생김, 이를 해결하기 위해 게이트를 도입하여 멀리 보내야 하는 정보는 희석시키지 않도록 Long Short-term Memory(LSTM) 게이트 추가
  - 뉴럴 네트웍 안에 LSTM RNN을 쓰고 있음, LSTM이 속도가 느리기 때문에 성능 개선을 한 것이 GRU(Gated Recurrent Unit)

[딥러닝 기반의 자연어처리]

◦Classification Problem
◦Sequence Labeling Problem
◦Sequence-to-Sequence Learning
◦Pointer Network
◦Machine Reading Comprehension
 - 각 모델링에 대한 자세한 내용과 실험 결과는 공개된 발표자료 참고

[결론]

◦ 전이 기반의 한국어 의존구문 분석이나 상호참조를 분류문제로 전환하여 딥러닝 기반 한국어 상호참조 해결을 하는 등 한국어 자연어 처리를 위하여 딥러닝 기반의 다양한 알고리즘의 결합하여 모델링하고 점진적인 성능 개선효과를 이루어 내고 있음
◦ 또한 빠른 속도로 발전하고 있는 인공지능 기반 다양한 연구 결과의 활용 및 확산 및 발전을 위해서는 연구 결과를 오픈소스로 공유하는 것이 중요한데, 이를 위해서는 별도의 인센티브제공 등의 정부차원의 지원이 필요할 것

초청세미나 170717 1
초청세미나 170717 1
초청세미나 170717 2
초청세미나 170717 2
초청세미나 170717 3
초청세미나 170717 3

키워드 자연어처리 자연언어 인공지능 딥러닝 월간SW중심사회2017년8월