대화형 언어·커머스 플랫폼으로 진화하는 기계번역

날짜2016.07.19
조회수16427
글자크기
    • 챗봇 등 대화형 언어·커머스 플랫폼으로 응용되는 기계번역 기술은 최근 2~3년 사이 인공신경망 방식이 접목되고 있음
    • 정부는 신규 트렌드에 대응하여 새로운 먹거리를 창출하고 기업 혁신을 촉진하기 위해 대화 코퍼스(말뭉치)가 축적된 공공데이터를 개방 및 확충할 필요가 있음
  • 챗봇 주요 동향
    • 음성 입력 기반의 챗봇과 더불어, 최근 모바일 메신저의 챗봇 도입으로 전자상거래가 가능한 대화형 언어 및 커머스 플랫폼으로 진화
    • 챗봇이란 채팅로봇, 즉 인공지능·자연어 처리 기반으로 사람과 대화를 나누는 프로그램으로 생활 전반에 걸쳐 필요한 정보를 제공하고 전자상거래도 가능
    • 음성 등 대화가 입력되면 관련 API 구조(intent structure)로 파싱되어 대응하는 애플리케이션에 맞게 액션이 이루어짐
    • 그림 1-사용자의 대화 입력과 의도 파싱, API 매핑을 통한 결과 도출 과정
    • 표 1-음성 및 텍스트 기반의 챗봇 서비스 관련 동향
  • 챗봇 관련 기계번역 기술 동향
    • 기계번역은 하나의 언어로 기술한 문서를 다른 언어로 자동 번역하기 위한 제반 기술로서, 자연어 처리(NLP), 인공신경망(Deep Learning)등을 활용하며 챗봇에서 중요한 역할을 차지하는 기술
    • 기계번역은 규칙기반, 통계기반, 하이브리드기반 방식이 주를 이뤘으나 최근 인공신경망 기계 번역 방식도 소개됨
    • 인공신경망 기계번역(NMT, Neural Machine Translation)은 딥러닝을 이용해 입력 문장과 출력 문장을 하나의 쌍으로 두고 가장 적합한 표현 및 번역 결과물을 찾는 방식
    • 딥러닝을 적용한 NMT문제 해결에 대한 연구는 최근 2~3년 사이에 시작되었으며 이는 2차원 Vision 문제해결에 40년 이상이 투자된 것과 대비됨
    • NMT 문제의 경우 중복이 적고 시간 개념이 들어가기 때문에 복잡도가 높음
    • NMT는 크게 워드 임베딩과 순환 인공 신경망(RNN, Recurrent Neural Network)이라는 기술요소로 나뉨
    • 워드 임베딩 : 한 단어를 입력하면 인공 신경망을 통해 단어와 관계 있는 관련 단어들이 워드 공간(Word Space) 상에 매핑이 되고, 이 단어 표현의 벡터 값이 곧 워드 임베딩
    • 순환 인공 신경망은 문장 구조에 따라 단어를 반복적으로 트리 구조로 맵핑하여 압축하고, 복호화하는 형식으로 문장을 번역
    • * 본래 순환 인공 신경망은 시계열 데이터에서 패턴을 찾아내는데 최적화된 방법론으로써 음성인식과 자연어 처리에 성공적으로 쓰이고 있음
    • 챗봇 관련 기계번역 기술 동향
    • 사람의 개입(Human annotation)이 감소하지만 어순이 다른 경우에 번역 품질이 떨어지므로 아직 개선의 여지가 많이 있음
  • 시사점
    • 정부는 새로운 먹거리를 창출하고 기업 혁신을 촉진하기 위해 자연어 처리 뿐 아니라 관련 API 구조로의 매핑을 완성하기 위한 대화 코퍼스가 축적된 대용량의 공공데이터를 개방 및 확충할 필요가 있음
    • 미국의 경우 이미 정부 차원에서 대화 코퍼스를 지속적으로 축적해 왔음(http://arxiv.org/abs/1512.05742)
    • 음성 등 관련 공공데이터의 개방은 개인정보보호 이슈가 있을 수 있으므로 수집 시 사전에 연구목적에 활용될 수 있음에 대한 동의를 구해야 할 것