혁신을 이끄는 데이터

날짜2015.02.27
조회수4111
글자크기

최근 기술의 발전은 놀라울 정돕니다.
무인자동차는 예상보다 빨리 나올 것 같고, 얼굴인식은 사람이 하는 것과 비슷한 수준까지 왔습니다.
왓슨컴퓨터는 챔피언과의 퀴즈대결에서 우승했고,
작년엔 투링시험에서 사람인지 인공지능인지 헷갈리게하여 그 성과를 두고 논쟁이 벌어지기도 했죠.
기술의 가치도 커져서 이제 기술만 있으면 몇십명의 개발자만 있는 회사가 수천억에서 수조원의 가격에 인수되고 있습니다.
정말 최근의 현상은 정신이 없고 겁이 날 지경입니다.

이런 급성장의 배경에는 하드웨어 기술의 발전, 인터넷의 보급 확대, 그리고 소프트웨어와 데이터, 좀 더 포괄적으로 얘기하면 디지털화 등이 주요 요인이라고 합니다.
이 중에도 지난 몇년만을 놓고 본다면 특히 디지털화된 데이터가 많아진 것이 가장 중요한 이유라고 생각합니다.
하드웨어는 90년대와 2000년대 초반까지 큰 영향을 미쳤지요. 그러나 XP에서 더 이상 업그레이드 안하려고 하듯 영향력이 떨어졌습니다.
인터넷은 2000년대 중반에 구글, 트위터, 페이스북이 급성장할 때 가장 중요한 기반이었죠.
물론 이런 기술이 지금도 아주 중요하고 여전히 발전하고 있지만 이제는 데이터가 이들이 구축해놓은 기반위에서 발전을 이끌고 있습니다.
요새 주목받는 딥러닝은 알고리즘의 개선도 있지만 데이터가 많아졌기 때문에 현실적인 결과를 내고 있고 왓슨컴퓨터도 위키피디아를 비롯한 여러 정보가 있어서 우승할 수 있었죠.
그런데 데이터는 수렴하지 않고 발산합니다.
데이터가 데이터를 낳는거죠.
그래서 데이터는 점점 늘어날 것이고 이 데이터의 영향력도 당분간 계속 커질 것으로 보입니다.
그럼 어떻게 해야 할까요?
회사는 데이터를 모으고 활용해서 매출로 연결하는데 노력해야겠죠.
반면 공공데이터는 공개해서 국민들이 쓸 수 있게 해줘야 할겁니다.
며칠전에 정부에서 공공데이터 개방에 더 적극적으로 나선다는 발표가 있었습니다.
좋은 일이고, 기대하고 있습니다.
그런데 여기에 쪼끔 덧붙이고 싶은 얘기가 있습니다.
제가 연구때문에 찾는 싸이트가 있습니다.
공공데이터를 공개하는 싸이트고 실제로 적극적으로 활동하는 곳입니다.
그런데 검색한 내용을 PC로 가져와서 분석하려면
화면을 긁어서 복사해야 합니다!!!
텍스트나 엑셀로 내보내기 기능이 있으면 좋을텐데요.
한 백, 이백개 정도면 그냥 긁어오겠지만 만개, 이만개 정도가 검색되면 고민에 빠지죠.
이걸 꼭 가져와야 하느냐.
연구에 꼭 필요한 데이터라면 할 수 없이 복사해 와야겠죠.
근데 문제는 이 데이터가 꼭 필요한지 어떤지를 미리 알기 어려운 때가 많다는 겁니다.
데이터를 가져와서 이리저리 돌려보다보면 뭔가가 발견되는건데 이런건 미리 알 수가 없습니다.
그래서 꼭 필요한 경우가 아니면 더 이상 살펴보지 않게되죠.
이번에 공공데이터를 공개하면서는 개인정보와 같은 민감한 내용은 제외하더라도 검색한 데이터를 PC로 내려받을 수 있게 해주면 좋겠습니다.
공공데이터를 공개하는 기관에선 미리 예상할 수 없는 방법으로 데이터를 활용하여 혁신이 일어나는 것이 현실입니다.
그러니,
데이터를 풀어줍시다.
잘.
마법은 거기서부터 시작될지도 모릅니다.
감사합니다.

소프트웨어정책연구소 김석원 연구2실장