사람 알아보고 말 알아듣고…알아서 학습

  • 김진형 제1대 소장 (2013.12. ~ 2016.07.)
날짜2015.03.11
조회수9303
글자크기
    • 김진형 소장 (소프트웨어정책연구소)
    • 김인중 교수 (한동대)
    • 인공지능은 지능이 필요한 일을 기계에게 시키기 위해 연구하는 학문이다. ‘지능이 무엇이고, 지능이 필요한 일은 어디까지인가’하는 철학적 질문의 답은 쉽지 않다. 그러나 지능을 갖춘 시스템의 성능은 쉽게 설명할 수 있다. 고도의 지능을 갖춘 시스템으로서 일상적으로 만날 수 있는 사례는 우리 인간 자신이 있다. 인간은 물체를 보고 이해하며, 복잡한 언어를 이용해 정보를 교환한다. 상황을 판단해 적절한 의사결정을 하는 능력이 있다.
    • 새로운 것을 ‘배울 수 있는 능력’을 지능의 필수조건으로 요구하기도 한다. 새로운 사실을 배워서 지식을 수정, 보완해 성능을 스스로 개선할 수 있는 능력은 경이로운 것이다. 이러한 능력을 컴퓨터 프로그램으로 표현하고자 하는 노력이 바로 인공지능이다.
    • 컴퓨터의 역사는 인공지능의 역사
    • 단순한 숫자 계산을 넘어서 고도의 인식과 판단 기능을 수행할 수 있는 컴퓨터의 연구는 어디까지 진행돼 왔을까? 번호판을 인식해 정산하는 주차관리 시스템, 음성명령을 알아듣는 스마트폰, 손으로 흘려 쓴 수식을 인식하는 시스템, 복잡한 미적분 문제의 해답을 주는 프로그램, 특정 질병에 대해 전문의사처럼 진단하고 처방하는 의료전문가시스템 등은 실용화된 인공지능 시스템이다. 대용량 데이터에 숨겨진 규칙을 찾아내는 빅데이터 분석도 많은 성과를 내고 있다. 인간의 언어를 통한 자연스러운 대화, 장애물을 피해 스스로 움직이는 자동차, 복잡한 동영상에 나타난 물체를 식별하고 사람의 얼굴을 인식해 의도를 파악하는 시스템 등은 실용 수준에 가까워 있다. 인공지능을 탑재한 로봇은 사람과 탁구 게임을 하기도 하고, 울퉁불퉁한 자갈길을 넘어지지 않고 걷기도 한다. 체스를 가장 잘 두는 사람을 컴퓨터가 이긴 것이 1997년이고 ‘왓슨(Watson)’이라는 인공지능이 퀴즈대회에 나가 쟁쟁한 우승자들을 모두 물리치고 최고의 상금을 탄 것이 2011년이었다. 2014년 도쿄대학 입시에 응시한 인공지능은 비록 합격권에 들지는 못했지만, 2013년보다 괄목할 만한 진전을 보여 2015년에는 합격할 것으로 기대하고 있다. 지금 수준으로도 일본 사립대학의 80%는 무난히 합격할 것이라는 평가를 받고 있다. 이러한 성과는 컴퓨터가 발명된 70년 전부터 발전해 온 결과다. 방법론 면에서는 큰 의미가 있었지만 성능이 부족해 관심을 얻지 못한 연구도 있었고, 좋은 성능으로 언론의 주목을 받은 연구도 있었다. 이런 연구가 축적돼 요즘은 인간의 능력을 능가하는 놀랄만한 성과를 여러 영역에서 보여주고 있다. 인공지능을 개발하고자 하는 노력은 인지생물학과 공학 두 가지 접근법으로 나눌 수 있다. 인지생물학적 접근법이 두뇌의 구조와 뇌 정보처리를 모사했다면, 공학적 접근법은 사람이 어떻게 하는가에 구애받지 않고 수학적 분석을 통해 성능을 내고자 하는 노력이다. 사람을 물리친 딥 블루(Deep Blue) 체스 프로그램은 대용량 병렬처리 기술을 이용한 공학적 접근법의 승리라고 할 수 있다. 이번 특집의 주제인 딥러닝은 신경망을 모사한 인지생물학적 접근법의 성과이다. 지난 70년 간 인공지능 기술은 다양한 방법론을 동원하고 또 부단히 새로운 방법론을 창출하면서 성장하는 과정을 반복해 왔다. 논리학, 확률적 모형, 탐색이론, 퍼지이론, 신경망 모델 등이 그들이다. 이들은 인공지능을 구축하는데 공헌을 했지만, 다양한 지능의 능력을 모두 구현하기에는 역부족이었다. 특히 지난 70년 동안 부단히 가능성을 보이면서 부침을 계속했던 방법론이 신경망 모델이다. 새로운 자극을 받으면 신경세포의 연결 강도가 강화된다는 생명체의 정보처리를 수학적으로 모형화 한 것이다. 1940년대에 제안된 이 방법론은 학습의 가능성으로 큰 기대를 모았다. 그러나 학습알고리즘이 하나의 계층을 넘어가지 못한다는 사실이 알려지자 사람들의 관심에서 멀어졌다. 그사이 기호적 처리 방법론이 득세해 1980년 중반까지 인공지능의 붐을 이끌었다. 기호적 처리는 사람이 알고 있는 것을 기호와 그들 간의 관계로 표현한 지식베이스를 만들고, 이를 바탕으로 새로운 사실을 추론하는 방법론이다. 사람이 알고 있는 것을 표현하니 고성능 시스템을 신속하게 만들 수 있는 장점이 있다. 특정 질병에 관한 처방을 IF-THEN 형태의 규칙으로 모은 의료전문가시스템과 지식을 구조적으로 표현한 왓슨 등이 대표적이다. 하지만 이 방법론은 스스로 학습하는 능력이 모자란다는 게 치명적 약점이다. 알려 준 것, 외운 것 외에는 모른다는 것인데, 세상에 외워야 할 것이 얼마나 많을까? 더구나 복잡한 작업들은 그 수행 절차를 정확하게 정의하기 매우 어렵다. 특히, 영상이나 음성 등 신호처리 작업에는 적용하기 힘들다. 컴퓨터가 데이터를 기반으로 스스로 절차와 지식을 배워 독자적으로 작업을 수행할 수 있다면 얼마나 좋을까? 이것이 기계 학습의 꿈이다.
    • 기계학습의 의미
    • 기계학습은 작업 수행방법을 컴퓨터가 데이터를 바탕으로 스스로 학습하도록 하는 기술이다. 입력과 출력 간 함수 관계를 데이터로부터 알아내고자 하는 것이다. 입력과 출력 간 함수 관계를 알고 있다면 입력에 해당하는 출력을 결정할 수 있다. 다양한 분야의 많은 기능은 입출력 간 함수 관계로 정의할 수 있다. 예를 들어, 얼굴인식이라면 얼굴 영상 입력으로 그 인물이 누구인지를 출력하는 것이고, 주가예측은 지난 정보의 입력으로부터 미래에 대한 예측치를 출력하는 기능이다. 학습 데이터가 많을수록 ‘좋은’ 함수 관계를 구할 수 있다. 여기서 ‘좋다’는 뜻은 다양한 경우에 적용할 때 잘 들어맞는 일반적인 정보를 얻을 수 있어서 인식이나 예측의 성능이 높아진다는 뜻이다. 최근 기계학습이 더욱 큰 위력을 발휘하는 것은 빅데이터 기술의 발전에 힘입어 대량의 데이터 획득이 가능하기 때문이다. 또한 입출력 간의 함수 관계를 학습했을 경우는 이를 바탕으로 여러 패턴을 생성할 수 있다. 예를 들어 얼굴영상으로부터 주요 특징의 분포를 학습한 후에는 가장 표준적인, 즉 가능성 높은 얼굴 모습을 생성하는 것도 가능하다. 또한 입력 패턴의 일부가 소실됐을 경우 남아있는 부분과의 결합 확률이 가장 높은 패턴을 찾아 소실된 정보를 복원할 수도 있다. 이러한 기계학습을 이용해 기계가 배운 지식을 인간이 배워오는 현상이 이미 나타나고 있다. 인간이나 고등동물만 배울 수 있다는 고정 관념은 이제 버려야 할 때가 된 것 같다.
    • 경주장에 다시 나타난 ‘늙은 말’
    • 기계학습 방법론에서 가장 두각을 나타내는 것은 뇌과학에 기초한 신경망 기법이다. 신경망은 입력계층과 출력계층이 중간에 위치한 은닉계층을 통해 연결된다. <그림> 노드 간 연결강도인 파라미터(매개변수) 값에 따라 신경망의 기능이 달라진다.
    • 즉, 연결강도를 적절히 설정해 특정한 기능을 수행하도록 만들 수 있다. 그 연결강도들은 학습 알고리즘을 통해 학습데이터를 기반으로 결정된다. 기계학습의 핵심은 파라미터들을 결정하기 위한 학습 알고리즘이다. 단층 신경망의 한계를 극복하는 다층 신경망의 학습 알고리즘은 80년대 중반 합리적 가정을 도입함으로써 개발됐다. 오류역전파 알고리즘이라는 이 학습 방법은 한 경영학도가 석사학위 논문으로 제안했던 것인데 10년이 지나서야 학계에 알려졌다. 이 알고리즘은 이론적으로는 모든 구조의 다층 신경망을 학습시킬 수 있다. 이에 따라 음성 및 영상 신호처리 분야에서 당시 기준으로는 괄목할만한 성능 개선이 있었다. 이를 두고 언론에서는 ‘늙은 말’, 즉 신경망 기법이 인공지능이라는 경주에 다시 나타났다고 격찬했다. 그러나 오류역전파 알고리즘도 그 한계를 드러냈다. 오류역전파 알고리즘은 학습 데이터에 대한 신경망의 출력을 원하는 값으로 접근시키기 위해 파라미터(신경망 연결강도)를 수정해야 할 방향을 계산한 후, 그 방향으로 파라미터를 이동시킨다. 여기서 파라미터를 수정해야 할 방향을 결정하는 오류 신호는 출력 계층에서 입력 계층으로 전파된다. 상위 계층의 여러 노드에서 각각 전파된 오류신호는 파라미터 이동을 결정하기 위해 통합되는데 계층이 깊어짐에 따라 문제가 발생한다. 오류 신호가 계층을 지날수록 점점 뒤섞이면서 약해지는데, 여러 계층을 지나면 방향성이 매우 희미해진다. 이러한 현상을 ‘방향성 소실’이라고 하는데, 이로 인해 깊은 신경망은 학습이 잘 이뤄지지 않거나 학습 속도가 극도로 늦어진다. 그럼 왜 ‘방향성 소실’을 야기할 만큼 깊은 신경망을 선호할까. 신경망의 계층이 깊어진다는 것은 의사결정에 있어서 고수준 특징(high-level feature)을 사용한다는 것이다. 저수준(low-level) 특징들의 결합으로 구성되는 고수준 특징은 더 강력한 정보를 제공하기 때문에 정확한 판단을 지원하고 변이에도 안정적이다. 예를 들어 얼굴 영상을 인식할 때 화소(pixel), 경계선, 얼룩 같은 저수준 특징보다 눈, 코, 입 등 고수준 특징으로 판단할 때 훨씬 정확하고 안정적인 판단을 할 수 있는 것이다. 고등 동물이 자주 접하는 손이나 얼굴 같은 물체를 인식하려면 그 물체 집합에만 반응하는 고수준 특징인 ‘할머니 뉴런’이라는 것이 있고, 이는 많은 노출에 의해 자율 학습된다는 것이 뇌과학자들의 일반적인 견해다. 깊은 신경망을 사용한다는 것은 고수준 특징을 찾아내고 이를 이용해 최종 의사결정을 하겠다는 것이다. 많은 계층을 갖는 깊은 신경망은 훈련만 잘 된다면 적은 계층을 갖는 신경망보다 훨씬 우수한 성능을 낼 수 있다. 수년 전 방향성 소실에 대한 해법을 제시한 새로운 학습 방법론이 개발되면서 깊은 신경망을 통해 강력한 성능을 얻을 수 있게 됐다. 이와 관련된 학문분야를 ‘딥러닝’이라고 한다. 딥러닝이라는 어휘와 함께 이 방향의 연구를 선도한 것은 ‘사전 학습(pre-training)’이라는 아이디어다. 자율 학습 알고리즘을 이용해 사전 학습을 시킨 후 기존 학습 알고리즘을 적용하면 깊은 신경망도 잘 학습할 수 있음을 발견한 것이다. 또 인식에 필요한 특징을 자동 학습하면서도 형태 변이를 효과적으로 흡수할 수 있는 깊은 신경망, CNN을 효과적으로 학습할 수 있는 알고리즘도 개발됐다. CNN은 계층 간 연결이 적어 방향성 소실 문제가 적을 뿐 아니라, 파라미터 공유를 통해 약해진 오류 신호를 모아 학습하기 때문에 다수의 계층을 가졌음에도 오류역전파 알고리즘에 의해 학습이 가능하다. 이 같이 사전 학습 알고리즘과 CNN의 학습 알고리즘 발견으로 돌파구가 마련된 이후, 딥러닝은 오랫동안 연구돼 온 광범위한 기계학습 이론들을 흡수하면서 급속도로 발전하고 있다.
    • 딥러닝의 열풍
    • 학습알고리즘의 개발과 함께 IT기술의 발달은 딥러닝 기술을 현실적인 응용 분야에 활용할 수 있게 했다. 인터넷의 확산과 센서기술의 발전으로 딥러닝에 필요한 학습데이터를 과거보다 훨씬 쉽게 얻을 수 있게 됐다. 또 많은 계산량을 요구하는 학습 과정도 고성능 HW, 병렬처리, 클라우드 컴퓨팅 등의 발전으로 쉽게 시도할 수 있게 됐다. 실제로 딥러닝은 최근 매우 다양한 응용분야에 적용돼 기존 방법을 압도하는 탁월한 성능을 보이고 있다. 음성 및 영상인식 분야에서 딥러닝은 당시 최고 기록들을 큰 차이로 넘어서는 놀라운 성능을 보였다. 필기한자 인식 경쟁에서 상위를 차지한 인식기들은 모두 딥러닝을 사용한 것이다. 페이스북은 딥러닝을 얼굴인식에 적용했다. 2014년 97.25%의 인식률을 보이는 등 최고 기록을 보였다. 딥러닝은 대용량 물체인식에서도 탁월한 성능을 보여준다. 2012년 이후 대부분의 상위 랭커들은 딥러닝에 기반한 방법을 사용하고 있다. 국내에서도 한동대학교가 필기한글 인식에 딥러닝을 적용, 우수한 성과를 거뒀다. 네이버와 다음도 음성인식에 적용해 상당한 성능 개선효과를 얻은 바 있다. 딥러닝 학습을 위한 컴퓨팅 환경이 좋아졌다고는 하지만, 많은 데이터에 깊은 신경망을 학습시키기에 대학의 컴퓨팅 능력은 제한적이다. 구글이 수행한 고양이를 인식하는 할머니 뉴런 구축 실험에 얼마나 많은 컴퓨팅 능력이 필요했는지가 이를 잘 보여준다. 그동안 여러 대학의 실험에서는 저수준 특징을 추출하는데 그쳤다. 하지만 구글팀은 유튜브에 올려진 1000만 건이 넘는 영상을 입력, 1만 6000개의 CPU를 이용해 10억 개의 연결강도를 학습시켜 3일 만에 성공적으로 고양이를 인식하는 할머니 뉴런을 학습했다. 인간의 두뇌는 100조 개의 연결로 구성돼 있다고 하니 갈 길은 멀다. 딥러닝 기술은 MIT가 2013년을 빛낼 10대 혁신기술 중 하나로 선정했고 가트너는 2014 세계 IT시장 10대 주요 예측으로 꼽았다. 애플, 구글, 마이크로소프트, 페이스북, 바이두 등 세계적인 기업들이 딥러닝에 집중하고 경쟁적으로 학계의 전문가들을 영입하고 있다. 대학의 과학자들이 더 깊고 큰 신경망을 학습시키기 위해 컴퓨팅 능력을 갖춘 기업 연구소로 이직하는 현상이 일어나고 있다. 이와 같은 추세를 감안할 때 국내에서도 딥러닝을 연구하는 인재들을 육성해야 한다. 학습알고리즘을 단순히 이해하고 적용하는 수준을 넘어서 한계를 극복할 수 있는 고급 연구 인력을 육성해야 한다. 이를 위해서는 기초과학연구원에 인공지능 및 기계학습 연구실을 설치해야 한다. 또 딥러닝에 필요한 고성능 컴퓨팅 인프라를 구축하는 것도 매우 중요하다. 무엇보다도 딥러닝으로 가능해진 기능들을 창의적으로 활용해 구체적인 부가가치를 창출하기 위한 시도가 요구된다.
    • 인공지능의 미래
    • 생각하는 기계를 만들고자 노력한 지난 70년의 성과가 이제 가속되는 느낌이다. 여러 분야에서 기계가 사람의 능력을 따라오고 있다. 제한된 영역이지만 기계가 사람의 능력을 넘어가는 특이점(Singularity) 현상이 나타나는 영역도 있다. 인공지능을 찾아가는 여정에서 신경망 방법론은 분명 큰 획을 긋고 있다. 딥러닝 알고리즘은 신경망 방법론의 가치를 더 할 것이다. 그러나 인공지능은 딥러닝만으로 완성되지 않을 것이다. 인공지능의 경마장에서 경쟁하는 또 하나의 말, 즉 기호처리적 방법론의 성과를 어떻게 수용해야 할까도 큰 숙제다. 지금까지 여러 방법론이 한계를 발견하고 역사의 뒤안길로 사라진 것처럼 딥러닝도 한계에 직면할지 모른다. 그러면 그 때 또 새로운 돌파구가 나올 것이다. 마침 인공지능 연구 방향에 큰 화두를 던진 튜링(Turing)의 이야기를 다룬 영화, 이미테이션 게임이 개봉됐다. 영화가 제시한 사람을 흉내 내는 인공지능, 즉 약한 인공지능은 이제 곧 완성될 것 같다. 인간처럼 듣고 말하고, 인간처럼 보고 인식하며, 인간의 기억을 돕는 기계는 머지않아 완성될 것이다. 인공지능은 인간을 일자리에서 몰아내고 있다. 글로벌 현상으로 다가오는 청년일자리 부족 문제는 일시적 현상이 아니다. 일터에서 인공지능의 인간 대체를 피할 수 없다면 우리 인간은 어떤 삶을 준비해야 하는지에 대해 생각을 깊이 해야 할 것이다. 더구나 기계가 의식(consciousness)을 갖는 강한 인공지능이 된다면 인간의 미래는 더욱 암담할 것이다. 강한 인공지능이 가능할까? 그렇다면 기계와 사람이 공생할 수 있을까? 더 깊은 생각이 필요하다.