빅데이터와 알고리즘 시스템의 공정성 이슈

  • 송지환SW기반정책·인재연구실 책임연구원
날짜2016.07.19
조회수21852
글자크기
    • 해외의 경우 빅데이터와 알고리즘 시스템에 관한 논의 주제가 프라이버시 이슈에서 공정성/차별 이슈로 확대되어 나가는 추세
    • SNS, 검색엔진, 온라인 광고 등에서 예상치 못한 사회적 차별이 발생할 수 있음을 인지해야 함
    • “빅데이터와 알고리즘 시스템은 항상 공정하고 중립적이다”는 명제에 대해 항상 의문을 갖고 빅데이터의 수집 단계와 이를 처리하는 알고리즘 시스템의 설계 단계에서부터 주의를 기울여야 함
  • 빅데이터와 알고리즘 시스템은 항상 공정한가?
    • 빅데이터 및 이를 활용하는 알고리즘 시스템은 새로운 가치를 창출하고 있음
    • 신용평가, 취업, 대학 진학, 사법 제도 등 다양한 분야에서 활용되고 있으며, 새로운 가치 창출로 사람들에게 여러 이점을 제공
    • • 최근 자동차 내비게이션 서비스는 이를 사용하는 이용자들의 속도 및 위치 데이터, 도로 공사 구간 정보 등을 실시간으로 수집하여 목적지까지 가장 빠른 길을 제공함(표 1 참조)
    • 그림 1-빅데이터의 가치 창출 프로세스
    • 표 1-목적지까지 이용자에게 빠른 길을 안내하는 자동차 내비게이션 서비스의 동작 원리
      반면 학계 및 산업계, 정부, 민간단체 등으로부터 빅데이터와 알고리즘 시스템의 공정성과 차별 이슈가 제기됨
    • “통계학적으로 규모가 큰 데이터는 객관적이다”와 “인간의 개입 없이 데이터 기반으로만 판단하는 알고리즘 시스템은 객관적이다”라는 가정이 항상 옮은 것은 아니라고 주장
    • 잘못 수집된 데이터나 잘못 설계된 알고리즘 시스템은 공정하지 않은 결과를 초래하거나 특정 집단에게 차별로 인한 심각한 피해를 줄 수 있다고 경고
    • • 빠른 길 찾기 내비게이션 서비스 예제에서 대중교통에 대한 정보를 주기적으로 업데이트하지 않으면 대중교통을 주로 이용하는 저소득층 이용자들이 차별을 받게 됨(자가 차량 이용자와 대중교통 이용자 간의 차별)
    • 빅데이터로부터 새로운 불평등이 발생할 가능성을 지적하고 빅데이터 접근성이 취약한 계층을 보호할 수 있는 방안이 필요하다고 주장
    • 美 백악관은 2014년부터 올해까지 매년 한차례씩 빅데이터 활용을 적극 장려하면서도 차별, 불평등에 대한 위험을 경고하는 정책 보고서 발간(1)
    • 오바마 대통령의 지시에 따라 개인정보보호 전문가, 민간 기업 등이 빅데이터 활성화 정책의 필요성 확인과 동시에 데이터 활용 증대에 따른 프라이버시 침해, 차별, 불평등 등을 완화하기 위한 정책 연구 진행
    • 특히 2016년 보고서에서는 단순히 데이터 기반(data-driven)이라는 근거로 빅데이터와 알고리즘 시스템이 객관적이라고 믿는 것은 위험하다고 경고
    • • 데이터를 기반으로 하는 알고리즘 시스템은 인간의 편향되고 부적절한 판단을 없애는데 어느 정도 기여 할 수 있음
    • • 반면 오랜 기간 동안 규범, 사법제도 등으로 잘 억제되어왔던 기존의 차별과는 다른 새로운 차별을 만들어 낼 수 있음을 시사
  • 알고리즘의 공정성 및 차별에 관한 구체적인 사례 연구
    • 페이스북의 뉴스피드 알고리즘 조작 실험으로 사용자의 감정이 SNS를 통해 전염될 수 있다는 연구 결과가 보고됨
    • 페이스북과 美 코넬대학교의 연구진은 페이스북의 뉴스피드 알고리즘을 조작하여 689,003명의 사용자를 대상으로 감정이 전염될 수 있는지 실험(2) - 실험 대상자의 뉴스피드에서 부정적인 내용을 줄였더니 상태 업데이트에서 그림 2와 같이 대조군에 비해 부정적인 단어의 사용이 줄고 긍정적인 단어가 늘었으며, 반면 긍정적인 내용을 줄였더니 긍정적인 단어는 줄고 부정적인 단어가 늘어남
    • 문자 기반의 SNS를 통해서도 사용자의 감정이 전염될 수 있으며, 이러한 매체들이 감정 전염을 조작할 수 있음을 실험으로 보여줌
    • 특히 실험 대상자들은 뉴스피드의 알고리즘 조작 사실을 인지하지 못함
    • 그림 2-페이스북의 감정 전염 실험 결과
      검색 엔진의 순위 조작으로 선거에서의 부동층 표심을 움직일 수 있다는 연구 결과가 발표됨
    • R. Epstein과 R. E. Robertson은 검색 엔진의 순위 조작이 부동층의 표심을 실제 움직일 수 있다는 것을 실험을 통해 입증하였으며,(3) 이를 ‘검색 엔진 조작 효과’(SEME : Search Engine Manipulation Effect)라 부름
    • 검색 순위 조작으로 부동층 20% 이상의 투표에 영향을 줄 수 있다고 주장하였으며 더 많은 영향을 받는 인구 통계학적 그룹이 존재할 수 있다고 함
    • 특히 실험에 참가한 대부분의 사람들이 검색 순위 조작을 인지하지 못하였음
    • 한 가지 검색 엔진이 주로 사용되는 국가일수록 SEME에 더 큰 영향을 받을 수 있음을 경고
    • 그림 3-검색 엔진의 순위 조작 영향에서 사용된 데이터 셋
    • 표 2-미국인 2100명에 대한 검색 순위 조작 실험 결과
    • 성별에 따른 차별적 광고 정보 제공 이슈 제기됨
    • 美 카네기멜론 대학 연구팀의 논문에 의하면, 구글의 온라인 광고가 성별에 따른 차별적 광고를 내보내고 있다고 주장(4)
    • • 표 3에서와 같이 여성보다 남성에게 좀 더 높은 급여의 직업 광고를 보여 줌으로써, 구글 온라인 광고에서 성별에 따른 차별이 존재한다는 이슈 제기
    • 표 3-구글 온라인 광고는 여성보다 남성에게 더 높은 임금을 받을 수 있는 광고를 보여주고 있음
    • 검색 엔진의 이미지 검색에서 직업에 따른 성비(性比)가 실제 성비와 차이가 있다고 보고됨
    • 美 워싱턴 대학의 연구 결과에 의하면, 검색 엔진의 이미지 검색에서 직업별 남녀 비율이 美 노동통계국 (BLS : US Bureau of Labor and Statistics)의 비율과 맞지 않아, 이미지 검색 결과에 의해 직업에 대한 남녀 차별/편견이 고착화될 가능성 있다고 우려하고 있음(5)
    • 관련해서 워싱턴 대학의 소식지에 의하면, 구글 이미지 검색의 여성 CEO 이미지 비율은 11%로 실제 27%에 미치고 못하고 있으며 그림 4, 실제 여성 텔레마케터의 비율은 50%임에도 불구하고 검색 상위 100위에 포함된 여성 텔레마케터는 64%임 그림 5(6)
    • 그림 4-구글 이미지 검색에서 여성 CEO비율은 실제보다 낮게 검색됨, 그림 5-구글 이미지 검색에서 여성 텔레마케터 비율은 실제보다 높게 검색됨
  • 알고리즘의 공정성 및 투명성 확보를 위한 노력
    • 구글 트러스트 프로젝트(7)
    • 뉴스를 구성하는 항목들이 모두 투명하고 진실하며 가치를 지녀야 함을 목표로 함
    • 이러한 목표를 잘 이행한 언론사들에게 구글 뉴스 검색 결과에서 상단에 배치되도록 보상함
    • 한국언론진흥재단, ‘뉴스트러스트위원회’ 출범(8)
    • 사람의 개입 없이 컴퓨터 스스로 뉴스를 공정하게 평가할 수 있는 ‘뉴스 계량평가 알고리즘’개발이 목표
    • 전문가들의 공개적 논의를 통해 뉴스 계량평가 알고리즘 개발이 실현되면 추후 뉴스 생산과 유통환경 개선에 기여할 것으로 기대
  • 시사점
    • 빅데이터와 알고리즘 시스템의 활용은 사용자에게 이익과 편의성을 제공하는 동시에 그로 인해 예상치 못한 차별(사회적 비용)도 발생할 수 있음을 인지해야 함
    • 투명하고 책임 있는 방법과 적법 절차를 통해 기업과 사용자 모두에게 이익을 주면서도 그로 인해 발생하는 여러 사회적 비용은 최소화해야 함
    • “빅데이터와 알고리즘 시스템은 항상 공정하고 중립적이다”는 명제에 대해 항상 문제의식을 갖고 빅데이터의 수집 단계와 이를 처리하는 알고리즘 시스템의 설계 단계에서부터 주의를 기울여야 함
    • (1) 2014년 Big Data: Seizing Opportunities, Preserving Values, 2015년 Big Data: Seizing Opportunities, Preserving Values: Interim Progress Report, 2016년 Big Data: A report on Algorithmic Systems, Opportunity, and CivilRights
    • (2) A. Kramer 외, Experimental evidence of massive-scale emotional contagion through social networks, PNAS, 2014
    • (3) R. Epstein 외, The search engine manipulation effect (SEME) and its possible impact on the outcomes of elections. PNAS, 2015
    • (4) A. Datta, Automated Experiments on Ad Privacy Settings, Proceedings on Privacy Enhancing Technologies, 2015
    • (5) M. Kay, Unequal Representation and Gender Stereotypes in Image Search Results for Occupations, CHI, 2015
    • (6) http://www.washington.edu/news/2015/04/09/whos-a-ceo-google-image-results-can-shift-gender-biases/
    • (7) http://thetrustproject.org/
    • (8) http://www.yonhapnews.co.kr/bulletin/2016/05/03/0200000000AKR20160503126200033.HTML