대화형 언어·커머스 플랫폼으로 진화하는 기계번역
날짜2016.07.19
조회수16209
글자크기
-
-
- 챗봇 등 대화형 언어·커머스 플랫폼으로 응용되는 기계번역 기술은 최근 2~3년 사이 인공신경망 방식이 접목되고 있음
- 정부는 신규 트렌드에 대응하여 새로운 먹거리를 창출하고 기업 혁신을 촉진하기 위해 대화 코퍼스(말뭉치)가 축적된 공공데이터를 개방 및 확충할 필요가 있음
-
챗봇 주요 동향
- 음성 입력 기반의 챗봇과 더불어, 최근 모바일 메신저의 챗봇 도입으로 전자상거래가 가능한 대화형 언어 및 커머스 플랫폼으로 진화
- 챗봇이란 채팅로봇, 즉 인공지능·자연어 처리 기반으로 사람과 대화를 나누는 프로그램으로 생활 전반에 걸쳐 필요한 정보를 제공하고 전자상거래도 가능
- 음성 등 대화가 입력되면 관련 API 구조(intent structure)로 파싱되어 대응하는 애플리케이션에 맞게 액션이 이루어짐
-
-
-
챗봇 관련 기계번역 기술 동향
- 기계번역은 하나의 언어로 기술한 문서를 다른 언어로 자동 번역하기 위한 제반 기술로서, 자연어 처리(NLP), 인공신경망(Deep Learning)등을 활용하며 챗봇에서 중요한 역할을 차지하는 기술
- 기계번역은 규칙기반, 통계기반, 하이브리드기반 방식이 주를 이뤘으나 최근 인공신경망 기계 번역 방식도 소개됨
- 인공신경망 기계번역(NMT, Neural Machine Translation)은 딥러닝을 이용해 입력 문장과 출력 문장을 하나의 쌍으로 두고 가장 적합한 표현 및 번역 결과물을 찾는 방식
- 딥러닝을 적용한 NMT문제 해결에 대한 연구는 최근 2~3년 사이에 시작되었으며 이는 2차원 Vision 문제해결에 40년 이상이 투자된 것과 대비됨
- NMT 문제의 경우 중복이 적고 시간 개념이 들어가기 때문에 복잡도가 높음
- NMT는 크게 워드 임베딩과 순환 인공 신경망(RNN, Recurrent Neural Network)이라는 기술요소로 나뉨
- 워드 임베딩 : 한 단어를 입력하면 인공 신경망을 통해 단어와 관계 있는 관련 단어들이 워드 공간(Word Space) 상에 매핑이 되고, 이 단어 표현의 벡터 값이 곧 워드 임베딩
- 순환 인공 신경망은 문장 구조에 따라 단어를 반복적으로 트리 구조로 맵핑하여 압축하고, 복호화하는 형식으로 문장을 번역
- * 본래 순환 인공 신경망은 시계열 데이터에서 패턴을 찾아내는데 최적화된 방법론으로써 음성인식과 자연어 처리에 성공적으로 쓰이고 있음
-
- 사람의 개입(Human annotation)이 감소하지만 어순이 다른 경우에 번역 품질이 떨어지므로 아직 개선의 여지가 많이 있음
-
시사점
- 정부는 새로운 먹거리를 창출하고 기업 혁신을 촉진하기 위해 자연어 처리 뿐 아니라 관련 API 구조로의 매핑을 완성하기 위한 대화 코퍼스가 축적된 대용량의 공공데이터를 개방 및 확충할 필요가 있음
- 미국의 경우 이미 정부 차원에서 대화 코퍼스를 지속적으로 축적해 왔음(http://arxiv.org/abs/1512.05742)
- 음성 등 관련 공공데이터의 개방은 개인정보보호 이슈가 있을 수 있으므로 수집 시 사전에 연구목적에 활용될 수 있음에 대한 동의를 구해야 할 것