우리는 현재까지 전통적인 통계학에 의하여 추론과 예측이라는 두 가지 목표를 달성하기 위해 노력해왔다. 시간이 흐름에 따라 사회 현상에 대한 데이터를 수집하고, 수집한 데이터의 특성에 대해 가설을 세워 확률 모델을 제안하였으며 이를 과학적으로 검증할 수 있는 다양한 방법론을 개발하고 준용하였다. 전통적 통계 분석은 여전히 강력한 설명력을 갖는다. 분석할 데이터의 크기가 비약적으로 증가하고 기계학습(Machine Learning)이란 신생 방법론이 등장하게 된 현재도 마찬가지다.

  올해 4월 네이처(Nature)지에서는 생물학 연구에 통계적 기법과 기계학습을 적용하는 연구 방법의 유형을 정의하였다. 기계학습이 전통적인 통계 기법과 직접적으로 비교되어 우위를 논하는 시대에 접어들었다는 점은 괄목할 만한 부분이다. 또한 해당 문헌에서 각기 다른 방법론의 다각적인 효용성을 논하는 와중에, 분석 데이터의 양적인 증가를 반영하는 데 있어 고전 통계학이 기계학습에 비해 불리하게 작용한다는 점을 기술한 것은 주목할만하다.

  세부적인 내용은 각설하고, 네이처는 전통적인 통계의 가치가 표본으로부터 모집단 추론을 이끌어내는 데 있으며 기계학습은 일반화가 가능한 예측 형태를 찾을 수 있다고 역할을 정리하였다. 이는 추론과 예측이라는 두 가지 통계의 쓰임새 중, 예측의 범주에서 기계학습의 손을 들어줬다 판단할 수 있다.

  이러한 상황이 나타난 근본적인 원인은 데이터의 복잡성이 비약적으로 상승한 데에 기인한다. 통계 모델링은 수십 개의 입력 변수와 샘플 크기가 존재하는 데이터를 다루는 데 유용한 것으로 알려져 있다. 과거 이러한 방법론은 모집단을 샘플링하기 위해 고려해야 할 연관성이 50개 이하인 경우가 많아, 적합한 모델을 생성하고 다루는 데 복잡성이 크지 않았다. 그러나 소위‘ 빅데이터’로 불리는 거대한 데이터 꾸러미는 데이터 자체만 봐서는 가설을 세우기 쉽지 않은 식별이 어려운 블랙박스에 가깝다. 이를 모델링하기 위해서는 높아지는 복잡성과 통계적 추론의 불확실성 증가를 담보로 가져갈 수밖에 없다. 결과적으로 불친절한 데이터의 출현이 전통적인 통계의 강점을 흐리게 하였고, 이에 발맞추어 시행착오에 기반한 기계학습 방법론의 가치를 상승시켰다고 볼 수 있다.

  그럼에도 불구하고 기계학습은 아직 국가 통계의 관점에서 주요하게 활용되는 도구가 아니다. 국내외를 살펴봐도 인구통계학적 조사 방법론에 기초한 데이터 및 설문조사에 의거한 전통적인 통계 모델링을 통한 분석 결과가 지배하고 있다. 익숙하지 않은 방법론에 대한 저항도 이에 한몫을 하겠으나, 국가 통계의 현재 모습을 보면 그 이유를 알 수 있다.

  국가가 생산하는 통계는 지속적으로 변하는 수요에 맞추어 발전해 나가고 있다. 통계청의 경제 총 조사나 고용노동부의 사업체 노동력 조사 등이 그러한 대표적인 사례이다. 이러한 통계는 크게는 거시적인 환경을 조망함으로써 국가 정책의 방향을 진단하고, 구체적으로는 시행한 정책을 검증하는 데 있어 각 분류 기준별 효과성을 분석하는 데 활용된다. 보통의 경우, 설문조사 형태로 데이터가 수집되며, 분석할 데이터의 특성별 연관성이 대체로 간단하거나 독립성을 띤다. 이 말은 전통적인 통계 모델링을 통해 충분히 포용 가능한 범위라는 의미로 해석될 수 있다.

  핵심은 우리가 국가 통계에서 제공하는 구체적인 속성보다 더 아래의 범주에 해당하는 정보를 갈망한다는 것이다. 공공분야의 정책 수립에 필요한 기반 자료를 작성함에도 실제 공표되는 정보보다 훨씬 더 세부적인 정보가 필요한 경우가 부지기수이며, 민간의 국가통계 활용률 저조는 하루 이틀 지적된 문제가 아니다.

  연계되는 이슈로 설문조사의 복잡성 증가가 응답률을 낮추는 데 일조한다는 점은 경험으로부터 모두가 유추할 수 있다. 실제로 설문 설계를 하는 데 있어, 일정 수준 이상의 응답이 강요되었을 시 응답률이 낮아 표본의 수를 충족시키기 어렵고 표본 대체 방법론으로 해결하기 어려운 경우가 많다. 이는 범위가 큰 단위의 조사일수록 더욱 영향을 많이 받을 수 있다. 결과적으로 통계 결과의 구체성을 증가시키기 위하여 설문 설계의 복잡성을 높이는 것은 현실적으로 불가능하다는 문제에 직면한다. 이러한 현상은 설문 설계와 병행되어야 하는 통계 모델의 복잡도 증가와 일맥상통한다. 필자가 생각하는 現 국가 통계의 한계이다.

  기계학습에 기반을 둔 국가 통계 조사로 이러한 난제를 해결할 수 있다. 목적에 맞는 설문을 설계하고, 이 설문을 수행할 이론적 샘플의 수를 충족시키고, 설문을 분석한 결과가 모집단에 적용되었을 시 일반화가 가능함을 검증하는 일련의 체계적 과정을‘ 회피’할 수 있기 때문이다.

  또한, 기계학습은 데이터의 패턴을 분석하여 다양한 형태의 예측 분석이 가능하다. 기존 통계의 예측치가 선형(Linear) 및 차원(Dimension)에 집중되어 있는 데 반해, 기계학습은 수치뿐만 아니라 문서 및 이미지 등 모든 형태의 데이터에 관한 정량화된 지표 산출을 가능하게 한다.

  그럼에도 불구하고 기계학습 기반 통계의 도입은 여전히 요원하다. 기존 통계 생산자에게 요구되는 인식의 전환도 힘들겠지만, 기계학습 기반 통계의 기반을 다지는 것이 크나큰 도전이 될 것이기 때문이다.

  가령 기계학습은 학습을 위한 데이터 확보를 위한 추가적인 노력을 수반한다. 여기에서의 데이터는 잘 정의된(Well-defined) 설문조사 기반 데이터도 아니고, 공무 중 파생되는 공공데이터도 아니다. 잘 정의되어 있지는 않으나 이루고자 하는 목적과 궤를 같이 하는 데이터, 즉 민간을 중심으로 생산되는 빅데이터라는 점에서 확보 과정의 난항은 충분히 예상 가능하다.

  게다가 기계학습은 설명력이 부족하다. 통계에 대한 정확도를 과거 데이터 간 교차 검증을 통해 해결한다. 기존 통계의 정합성 및 신뢰성을 검증하기 위해 통계가 도출되는 과정과 방법론의 타당성을 보았던 것에 비추어 볼 때, 입력 값과 출력 값만이 존재하는 기계학습의 신뢰성을 어떠한 방법으로 설명할 것인지도 해결해야 할 과제이다.

  이처럼 말도 많고 탈도 많으나, 그럼에도 우리는 기계학습을 수용하는 자세가 필요하다. 기계학습은 인공지능(AI) 분야의 기반 기술로서 세계적으로 활용 사례가 급증하고 있고 기존 방법론과는 달리 설명력에 대한 논란은 있으나, 분석 결과의 정확도 측면에서 우위에 있음은 다양한 문헌을 통해 증명되고 있다. 이는 곧 기존 검증 방법의 틀에서 벗어나야 한다는 점을 역설하고 있다.

  더불어 국가 통계를 기계학습 기반으로 세분화하여 생산하는 것은 곧 국가 통계의 활용도를 상승시킬 수 있는 열쇠가 될 수 있다. 국가 통계의 기본 원칙에는 공익적 가치를 가진 공공재라는 부분이 강조되어 있다. 공공의 이익은 사회 구성원 전체의 이익을 의미하는 것으로, 국가 단위의 거시적 정책 수립뿐만 아니라, 사회 구성원 개인에 직접적으로 이로움을 주는 통계가 되어야 한다. 이에 대해 기계학습이 해결책이 될 수 있다.

  끝으로 공익을 추구하는 목표 달성에 유일한 방법이란 없다. 공익 달성과 효율성을 함께 추구하는 용기가 필요한 시점이다.

기계학습 국가통계 월간SW중심사회 2018년 6월호