데이터 산업 발전을 위한 제언

※ 이 글은 중앙대학교 김명호 교수의 기고를 받아 작성되었습니다. 

 

새로운 화폐, 데이터

오늘날 모든 것은 데이터라고 해도 과언이 아니다. 우리가 스스로의 행위를 통해서 나 다른 사람과의 상호작용을 통해서 주고받는 모든 것은 본질적으로 우리가 누구이며 무엇을 선호하는가를 나타내는 정보들의 조각이기 때문이다. 데이터는 그 가치를 이해하는 누군가에게는 큰 기회로 작용할 수 있으며, 데이터 중심적 조직은 일하는 방식을 크게 변화시키거나 새로운 경제를 만들어낼 수도 있다. Uber나 Airbnb 사례처럼 전통적인 관점에서 볼 때 어떠한 물리적 자산도 보유하지 않은 채 데이터만을 기반으로 하는 새로운 형태의 비즈니스가 가능할 뿐만 아니라 기존 비즈니스를 분열적으로 혁신하고 있음에서 데이터가 새로운 화폐라는 표현은 더 이상 공허한 언어유희가 아님이 분명하다.

그러나 데이터의 모든 가치에도 불구하고 데이터만으로는 충분하지 않으며, 데이터로부터 가치를 추출할 수 있어야 기회로 연결될 수 있다. 본 기고에서는 데이터로부터 가치를 더욱 효과적으로 추출하기 위한 전략적 수단으로 데이터 개방, 빅 밸류 데이터, 데이터 과학, 신뢰와 프라이버시 등을 제시하고자 한다.

 

데이터 개방 효과 증대

가치 창출에 필요한 모든 데이터를 특정 개인이나 조직이 완전히 소유하는 것은 매우 힘든 일이다. 이해관계에 따라 데이터를 조직 간에 공유하거나 거래하는 것도 한가지 해결책이 될 수 있다. 과거에는 소프트웨어 개발을 위한 기능들로 구성된 플랫폼 API만 공개해 왔다면 오늘날은 데이터 또한 공개의 대상으로 주목받고 있다. 공공데이터나 연구 데이터는 보유기관의 의지만 있으면 쉽게 개방될 수 있어서 특히 주목받고 있다. UN의 통계 데이터를 공개한 UNdata, 인공지능 연구에 활용할 수 있는 데이터 집합들을 공개한 UCI Machine Learning Repository 등을 예로 들 수 있다. 국내의 공공데이터 포털도 이러한 추세를 반영한 노력의 바람직한 결과이다.

그러나 데이터를 개방해도 민간에서의 활용은 그다지 높지 않은 편이다. 대표적인 이유는 데이터 요청에 대해 가공하기 힘든 일반 문서를 전달하거나, 개발자가 임의로 설계하여 실제 활용이 매우 어려운 API에 의존하고 있기 때문이다. 데이터 개방의 효과를 극대화하기 위해서는 무슨 데이터를 공개할 것인가 하는 문제와 아울러 어떤 형식으로 공개할 것인가 하는 문제도 깊이 고민할 필요가 있다. 원본 문서와 아울러 메타데이터나 의미 데이터로 CSV나 JSON과 같은 같은 형식을 추가로 제공하거나, API의 활용도를 개선하기 위해 정의된 Open Data Protocol과 같은 표준도 적극 검토할 필요가 있다.

 

빅 밸류 데이터

근래 빅 데이터의 주요 관심사는 컴퓨터 클러스터에서 방대한 데이터 집합을 단순한 프로그래밍 모델로 분산 처리하는 하둡과 같은 프레임워크 기술들에 집중되어 왔다. 이 기술들은 빅 데이터 연구의 효용성을 증대 시키는 데 큰 몫을 담당하였고 이는 앞으로도 그러할 것으로 예상된다. 그러나 이 기술은 이미 수집된 방대한 분량의 데이터에 대해 일괄적으로 처리하는 모델에 특화되어 있기 때문에 매우 시급히 인사이트를 요구하거나, 데이터가 점진적으로 누적되는 시나리오에는 적합하지 않은 문제점이 있다.

빅 데이터 연구는 기존 연구와 아울러 “패스트 데이터”(fast data)와 “Almost 빅” 데이터에 대해서도 관심을 기울일 필요가 있다. 패스트 데이터는 빠른 속도로 누적되는 데이터를 위한 것으로 일괄처리보다는 스트림 해석이나 점진적 기계학습과 같은 연구와 연계하여 수행할 필요가 있다.

대부분의 빅 데이터 논의가 대규모의 데이터를 처리하는 목적으로 진행되고 있지만, 실제 유용한 데이터는 굳이 그런 기술을 이용할 필요가 없는 Almost 빅 데이터가 대부분이다. 전형적인 BI 도구로 충분히 해결할 수 있는 문제에 대하여 고난도의 도구들을 사용하는 것은 전형적인 overkill이며 예산낭비로 이어질 수밖에 없다. 빅 데이터라는 명칭을 사용하고 이른바 빅 데이터 기술을 사용한다고 해서 더 의미 있는 연구가 되는 것이 아니다. Almost 빅 데이터는 그 자체로 유용하며 고급 기술을 사용하지 않았다고 해서 유용성이 반감되지도 않는다. 그러므로 “빅” 데이터보다 “빅 밸류” 데이터를 발굴하는 것이 데이터로부터의 가치 창출에 훨씬 더 중요할 수 있다.

 

학제간 데이터 과학 협력

데이터 중심의 연구와 비즈니스는 특정 분야에 한정되지 않고 영역의 경계를 넘나드는 데이터가 필요한 경우가 자주 있으며, 데이터로부터 인사이트를 얻기 위해서는 방대한 분량의 도메인 데이터를 체계적으로 다룰 수 있는 경험과 능력이 빈번히 요구된다. 데이터 과학자는 이러한 간극을 메우는 매우 중요한 역할을 하는 전문가이다.

과거에는 데이터를 이해하기 위해 데이터 과학자의 개인적 전문성에 크게 의존하였다. 그러나 근래 빅 데이터와 인공지능, 특히 머신 러닝 기술이 급진전함에 따라 이러한 기술들을 자유롭게 구사하는 일반 개발자가 데이터 과학자를 대체 혹은 보완할 수 있는 가능성이 점차 커지고 있다. 더욱 효율적이고 널리 적용할 수 있는 데이터 처리나 머신 러닝 알고리즘을 개발하는 것은 여전히 어렵고 방대한 작업을 요구하지만, 높은 완성도를 가진 도구들을 사용하는 것은 비교적 쉬운 일이다. 그러므로 데이터 위주의 조직은 데이터 자체에 대하여 깊은 이해를 가진 데이터 과학자와, 고수준의 도구들을 사용하여 데이터를 처리하는 능력을 갖춘 개발자의 조합과 협력이 필수적으로 요구된다.

 

신뢰와 프라이버시

복수 주체의 협력이 필요한 데이터를 활용하여 가치를 창출하려면 투명하고 안전한 방법으로 데이터를 액세스하고, 규정 준수 여부를 확인/검증할 수 있어야 한다. 이를 위해서는 개방된 데이터뿐만 아니라 보호된 데이터도 교환할 수 있는 안전한 스토어와 거래소가 필요하므로 신뢰할 수 있는 데이터 스토어와 스마트한 데이터 거래를 가능하게 하는 데이터 마켓을 활성화할 필요가 있다.

데이터와 관련된 연구는 오래전 줄기세포 연구와 유사하게 법규의 적용 가능 여부가 모호한 영역의 데이터를 다루는 경우가 많이 발생하고 있다. 빅 데이터 연구와 머신 러닝 분야는 이런저런 위험요인을 따져 보기도 전에 먼저 출발해버린 열차와 같은 상황이기도 하다. 연구를 명분으로 무리하게 개인 정보를 침해하는 것도 큰 문제이지만, 현재의 개인 정보 관련 법규들이 주로 데이터 수집에 관심을 두어 제정된 것이기 때문에 데이터 산업을 정책적으로 육성하려는 현실에 잘 맞지 않을 수밖에 없다. 데이터 중심 시대에 적합한 법규들은 데이터 수집보다는 사용을 제어하는 것에 관심을 두는 것이 더 바람직할 것이다.

 

(김명호 / 중앙대학교 소프트웨어학부 교수,  SPRi 초빙연구원)