빅콘테스트 2015는 “야구경기 예측”이라는 현실적인 문제를 사전에 제공된 데이터와 기계학습 방법론을 사용하여 해결하는 경진대회이다. 이번 콘테스트에서는 약 80여 가지의 야구경기 관련 데이터를 제공하고, 딥러닝 방법론에 가산점을 부여하여 기계학습의 활용을 장려했다. 하지만 지금까지 기계학습 관련 콘테스트의 결과를 심도 있게 분석하여 대학생과 일반참가자들이 기계학습을 어떻게 인식하고 활용하는지에 대한 자료는 찾아보기 어렵다. 이에 본 보고서에서는 빅콘테스트 2015에 참여한 103개 팀의 결과자료를 분석하여 참가자들이 문제를 해결하기 위해 어떠한 방법론을 사용하고 어떤 결과를 예측했는지를 제시하고, 시사점을 도출해 보고자 한다.
분석 결과, 참가자들의 대부분이 네 가지 단계(데이터 수집→데이터 선별→예측 모델링→ 결과)를 거쳐서 문제를 해결했으며, 특히 데이터의 수집과 선별에 중점을 두어 상관관계가 높은 데이터의 추출에 노력을 기울였다. 또한 참가자들의 예측 방법론 사용 분포와 기계학습 적용 비율을 조사한 결과, 전체 103개 팀에서 가장 많이 사용한 예측 방법론은 회귀분석으로 약 43%를 차지했고, 기계학습 적용 비율은 약 72%이었다. 최종 수상한 14팀 중 12팀이 기계학습 방법론을 사용하여 기계학습의 보편적 활용가능성을 입증했으며, 그 외에도 딥러닝의 활용, 상관성이 높은 데이터 선별, 예측모델의 최적화 기법, 여러 가지 예측모델의 동시적용 등이 예측가능성을 높이기 위해 사용되었다.
하지만 콘테스트의 변별력을 더 확보하기 위해서는 문제의 난이도를 높이고 문제에 대한 선행연구 분석으로 구체적인 가이드라인을 제시할 필요가 있다. 또한 국내외 기계학습 경진대회의 장점을 벤치마킹하여 양질의 콘테스트를 위한 지속적인 프로그램 개선을 해야 할 것이다. 이번 콘테스트는 취업연계 프로그램을 통한 기계학습의 저변확대에는 긍정적인 효과가 있었으나, 향후에는 더욱 다양한 유인동기를 제공하여 콘테스트의 질적인 향상을 도모해야 할 것이다.