SPRi 소프트웨어정책연구소 : 연구보고서

RE-123

인공지능 신뢰체계 정립방안 연구

조원영SW기반정책·인재연구실 책임연구원
유재흥AI정책연구실 책임연구원
추형석 역대연구원

2022.05.24

28037

글자크기

- 1. 제 목 : 인공지능 신뢰체계 정립방안 연구
- 2. 연구 목적 및 필요성
- 인공지능이 널리 활용됨에 따라 인공지능의 기술적 한계, 기술의 오남용 등의 사회적 역기능이 부각되고 있고, 이에 따라 인공지능 기술, 산업 생태계의 지속 성장 가능성이 도전을 받고 있는 상황이다. 인공지능에 의한 부작용으로 막대한 사회적 비용이 발생한다면 기술의 사회적, 산업적 수용도가 저하되고 기술에 대한 투자 유인이 감소하여 지속가능한 기술 발전이 불가능하다. 이 연구는 인공지능의 지속가능한 발전을 위해 필수적인 신뢰 체계를 정립하기 위한 정책 방안을 마련하는 것을 목적으로 수행되었다.
- 3. 연구의 구성 및 범위
- 인공지능의 신뢰 체계를 정립하는 정책을 마련하기 위한 첫 번째 단계는 신뢰를 결정짓는 정책 변수를 도출하는 것이다. 국민들이 인공지능의 신뢰수준을 인식할 때 구체적으로 어떤 요소를 통해 신뢰수준을 결정짓는지 확인해야 한다. 즉, 신뢰수준이 종속변수라고 한다면 이를 결정짓는 독립변수를 규명하는 작업이 필요하다. 제2장은 주요국 정부 및 국제 기구의 정책 보고서와 이들 정책 보고서를 메타 분석한 연구 논문을 분석하여 이번 연구에서 활용할 인공지능 신뢰성 구성요소를 6대 원칙, 13개 세부 항목으로 도출하였다.
- 앞서 언급했다시피 인공지능 신뢰성을 높이는 행위는 인공지능 개발 및 활용에 추가적인 제약요인이라는 점에서 비용이 증가하거나 성능 저하가 발생한다. 따라서 합리으로 인공지능 신뢰성 수준을 결정해야 한다. 이를 위해서는 제2장에서 도출한 인공지능 신뢰성 구성요소별 상대적 중요도, 즉 신뢰성 개선에 더욱 영향을 미치는 요소와 그렇지 않은 요소를 파악하고, 이에 따라 관련 기술 개발이나 법제도 마련이 필요하다. 가령, 인공지능 신뢰성 구성 요소 중 견고성이 가장 중요한 요소라고 인식하고, 투명성이 가장 덜 중요한 요소라고 인식한다면, 견고성을 높이기 위한 정책적 지원이 투명성보다 더 많이 이뤄져야 할 것이다.
- 제3장과 제4장은 인공지능 신뢰성 구성요소에 대한 사회적 요구수준을 파악하기 위해 언론기사 빅데이터 분석 및 인공지능 신뢰성 분야 전문가 설문 분석을 수행하였다. 통상 일반 국민은 언론을 통해 인공지능의 신뢰성에 영향을 미치는 각종 소식을 접하게 된다. 이런 점에서 인공지능의 신뢰성에 긍부정적 영향을 미치는 언론기사 동향을 분석한다면, 간접적으로 일반 시민들의 인공지능 신뢰성 구성요소에 대한 요구수준을 파악할 수 있다. 하지만 인공지능 신뢰성 이슈가 여전히 일반 국민의 삶에 큰 영향을 미치지 못하는 상황이기 때문에 언론기사 분석만으로 사회적 요구수준을 파악하는 것이 한계가 있다. 이런 점에서 인공지능 신뢰성 분야의 전문가 설문조사가 적절하다.
- 따라서 제3장은 최근 신뢰성 이슈가 제기되는 대표적인 인공지능 분야인 자율주행차, 안면인식서비스, 그리고 가상비서 서비스에 대한 뉴스기사를 빅데이터 분석하여 주제별, 기간별 신뢰성에 영향을 미치는 긍부정 효과를 파악하였다. 이를 위해 지난 5년간(2017년 1월 1일 ~ 2021년 8월 31일, 56개월)의 해외 6개 주요 언론사 기사 12,703건을 수집하여 규칙 기반 감성 분석을 수행하였다.
- 제4장은 국내 인공지능 정책, 법제도 및 기술분야에서 인공지능 신뢰성 관련 업무를 직간접적으로 수행하는 전문가 30명을 대상으로 인공지능 신뢰성에 대한 요구수준에 대한 설문을 조사하였다. 설문조사는 △인공지능 신뢰성 구성요소 대분류 간 상대적 중요도 평가, △인공지능 신뢰성 대분류의 세부항목 간 상대적 중요도 평가, △주요 인공지능 서비스에 대한 신뢰성 대분류 간 상대적 중요도 평가결과의 세 개 파트로 나누어 진행하였다. 응답 방식은 리커트 척도(Likert Scale)를 활용할 경우 응답자들이 모든 요소에 대해 유사한 점수를 부여하는 문제점을 다소 해소할 수 있는 고정총합척도(Constant-Sum Scale) 방식을 활용하였다.
- 제5장은 제3장과 제4장에서 분석한 인공지능 신뢰성 구성요소에 대한 사회적 요구에 기업이 얼마나 잘 대응하고 있는지를 파악하고자 국내 인공지능 산업계 종사자를 대상으로 인공지능 신뢰성 구성요소별 필요성, 중요도, 수행 여부 등에 대해 분석하였다. 응답의 신뢰성을 위해 응답자는 인공지능 개발 및 관련 서비스 기획에 실제로 참여한 경험이 있는 경력 3년 이상의 종사자로 한정하였고, 최종적으로 173명의 응답을 확보하여 분석하였다. 제5장의 분석을 통해 인공지능 규제나 자발적 지침(가이드라인)이 마련될 경우 현실적으로 이를 준수하기 위해 기업의 준비 수준뿐만 아니라, 제3장과 제4장에서 살펴본 인공지능 신뢰도에 대한 사회적 요구와 기업의 대응 간 미스매치를 파악할 수 있다. 이를 통해 사회적 요구와 기업의 준비 수준간의 미스매치를 해소하기 위한 다양한 정책 개발을 기획할 수 있다.
- 제6장은 현재 오픈소스 형태로 공개된 인공지능 신뢰성 기술도구(Toolkit)를 분석했다. 인공지능을 선도하는 주요 기업과 대학은 인공지능 개발자들이 조금 더 쉽게 인공지능 신뢰성 구성요소를 점검 할 수 있도록 기술도구를 개발 및 공개하고 있다. 이 중 제6장에서는 구글, 마이크로소프트, IBM이 개발한 인공지능 신뢰성 기술도구가 △ 프라이버시 보호, △ 공정성, △ 투명성, △ 견고성 차원에서 제공하는 기능을 중심으로 소개하기로 한다. 인공지능을 개발하는 스타트업이나 이를 활용하는 기업은 독자적인 신뢰성 기술개발이 어렵기 때문에 오픈소스로 공개된 기술도구를 이용할 가능성이 높아 제 6장의 분석 결과는 제5장과 함께 기업의 인공지능 신뢰성 준비도를 판단하는 주요 지 표로 활용할 수 있다.
- 제7장은 해외 주요국 인공지능 관련 입법동향 및 지침을 소개하였다. 특히 각 조항을 인공지능 신뢰성 구성요소별로 분류하여 각 법안 및 지침에서 중점적으로 다루는 분야 와 그렇지 않은 분야를 파악하고자 하였다.

4. 연구 내용 및 결과
4-1. 인공지능 신뢰성 구성요소 도출
주요국 정부 및 국제기구에서 발표한 인공지능 신뢰성 원칙, 하버드버크만연구센터, 세계 경제포럼 등의 메타분석 보고서 등을 종합하여 이번 연구에서 활용한 인공지능 신뢰성 구성요소를 도출했다. 다수의 정책 문건에서 보편적으로 다루는 요소를 최대한 포함시키되 구성요소 간 중복성이 없도록(mutually exclusive & collectively exhaustive) 구성요소를 도출했고, 인공지능 신뢰성 전문가들의 검토를 받아 최종 확정했다.
인공지능 신뢰도 구성요소는 크게 △프라이버시 보호, △견고성, △공정성, △투명성, △책임성, △인류가치 증진 등 6대 분야로 구성했고 각 분야별로 2~3개의 세부 항목을 포함시킴으로써 구성요소간의 계위를 맞추는 동시에 중복성이 없도록 조정하였다.
프라이버시 보호는 ‘인공지능을 개발하고 활용하는 전 과정에서 개인의 프라이버시를 보호하고 개인정보 오용을 최소화’하는 것으로 정의했다. 프라이버시 보호를 위한 세부 항목으로 △데이터 주권 보호와 △프라이버시 보호 역량 확보를 포함시켰다. 데이터 주권 보호는 ‘데이터 수집·사용 시 데이터 주체의 동의를 얻어야 하고 데이터 주체는 데이터 사용 제한, 수정, 삭제 등의 권리를 보유’하는 것을 의미한다. 프라이버시 보호 역량 확보는 ‘인공지능 개발 과정에서 프라이버시 보호를 위한 최신의 기술과 적절한 개발 아키텍처를 채택’하는 것으로 정의했다.
견고성은 ‘인공지능이 승인되지 않은 당사자나 목적으로 오남용되어 인간이나 사회에 피해를 주지 않도록 안전하게 의도한대로 작동’하는 것으로 정의했다. 견고성을 위한 세부항목으로 △침해금지와 △안전성을 포함시켰다. 침해금지는 ‘인공지능이 범죄적 목적에 사용되지 않아야 하고 사이버 공격 등 외부의 위협에 효과적으로 대응’하는 것을 의미한다. △안전성은 ‘인공지능의 개발 및 활용 전 과정에서 오작동 및 잠재적 위험을 방지하고 안전을 보장’하는 것으로 정의했다.
공정성은 ‘인공지능은 특정 그룹이나 사용자들에게 차별적, 편향적 결과를 제공하지 않는 것’으로 정의했다. 공정성을 위한 세부 항목으로 △데이터 관리와 △다양성존중을 포함시켰다. 데이터 관리는‘데이터 수집과 활용의 전 과정에서 데이터 편향성이 최소화되도록 데이터 품질과 위험을 관리’하는 것을 의미한다. 다양성 존중은 ‘인공지능 개발 및 활용 전 과정에서 다양한 배경을 지닌 사람들의 참여와 의견을 수렴하는 등 사용자의 다양성과 대표성을 반영’하는 것으로 정의했다.
투명성은 ‘이해관계자가 인공지능의 성능과 한계를 이해할 수 있도록 인공지능의 동작, 운영방법 등의 관련 정보를 제공’하는 것으로 정의했다. 투명성을 위한 세부항목으로 △사전고지, △추적성, △설명성을 포함시켰다. 사전고지는 ‘인공지능이 활용된 경우 이에 영향을 받는 당사자에게 인공지능이 사용되었음과 발생할 수 있는 위험에 대해 명확히 공지’하는 것을 의미한다. 추적성은 ‘성능을 검증하거나 문제의 원인을 추적할 수 있도록 데이터의 이력, 알고리즘 설계, 테스트 및 검증 방법, 결과 등을 공개’하는 것을 의미한다. 설명성은 ‘인공지능이 결과를 어떻게 도출했는지 설명과 평가가 가능하도록 인간이 이해할 수 있는 형식으로 제공’하는 것으로 정의했다.
책임성은 ‘인공지능 개발 및 활용 전 과정에서 책임주체를 명확히 설정하고 피해 발생 시 구제방안을 마련’하는 것으로 정의했다. 책임성을 위한 세부항목으로 △인간의 관리감독과 △이의제기, 피해산정 및 보상을 포함시켰다. 인간의 관리감독은 ‘인공지능의 운영 과정을 모니터링하며 문제가 발생할 경우 인간이 개입하여 문제를 해결하는 기술과 절차를 마련’하는 것을 의미한다. 이의제기, 피해산성 및 보상은 ‘인공지능의 결정에 대한 이의 제기, 피해 규모 산정 및 피해에 대한 보상 절차를 마련’하는 것으로 정의했다.
인류가치 증진은 ‘인공지능은 인간의 기본권을 침해하지 않고 사회의 이익을 증진’하는 것으로 정의했다. 인류가치 증진을 위한 세부항목으로 △인권보장과 △공공성을 포함시켰다. △인권보장은 ‘인공지능이 인간의 권리와 자유를 보호’하는 것을 의미한다. △공공성은 ‘인공지능은 사회적 공공선을 증진하고 인류 공동의 이익을 추구하며, 긍정적 사회변화를 이끄는 방향으로 활용’되는 것으로 정의했다.
본 연구에서 기본 틀로 활용하는 인공지능 신뢰성 구성요소와 앞서 분석한 기존 보고서의 인공지능 신뢰성 구성요소 간 관계는 다음 표와 같다.
우선 인공지능 윤리기준은 우리 정부의 공식적인 최초의 원칙으로서 현재 각 부처의 관련 지침이나 인공지능 규제안 등의 기초자료로 활용되기 때문에 본 연구에서 활용하는 인공지능 신뢰성 구성요소와의 연계성을 최대한 맞추고자 하였다. 다만 인공지능 윤리기준에서 프라이버시 보호, 투명성, 책임성 등 3개 항목은 그 범위가 너무 넓어 세부 항목으로 나누어 원칙을 좀 더 구체화 하였다. 또한 인공지능윤리기준에서 미래세대에 대한 배려, 다양한 주체의 공정한 참여기회 보장, 글로벌 협력 등을 다룬 △연대성은 공정성, 인류가치 증진 등과 중복되는 내용이므로 별도의 구성요소로 도출하지 않았다.
하버드버크만클라인센터에서 80여개의 AI 원칙을 분석하여 도출한 8개의 인공지능 원칙과 본 연구의 신뢰성 구성요소는 대부분 일치한다. 다만 하버드버크만클라인센터의 8개 원칙은 이번 연구의 6대 대분류 수준에 해당하는 바, 본 연구는 이들의 원칙을 좀더 구체적인 세부 항목으로 나누어 살펴본다는 점에서 차이가 있다. 또한 이들의 분류에 책임성과 기술에 대한 인간의 통제는 동등한 수준으로 보는 것이 적절치 않다고 판단하였다. 오히려 기술에 대한 인간의 통제는 책임성 원칙을 위한 구체적인 수단으로 보는 것이 맞다. 또한 하버드버크 만클라인센터에서 8대 원칙에 포함시킨 전문가 책임은 본 연구의 구성요소에서는 계위가 맞지 않아 포함시키지 않았으나, 책임성의 세부 항목인 인간의 관리감독과 동일한 내용으로 이해할 수 있다.
네이쳐에 게재된 Jobin et al.(2019)의 인공지능 원칙과 본 연구의 인공지능 신뢰성 구성요소의 대분류 역시 인류가치 증진을 제외하면 대체로 일치한다. 인류가치 증진의 경우 이들 연구에서 존엄성, 선행, 지속가능성 등의 원칙이 해당된다고 볼 수 있다. 또한 이들 연구에서 인공지능 원칙에 포함시킨 연대성, 신뢰성 등은 포함시키지 않았는데, 연대성은 인공지능 신뢰성 문제를 구체화한 항목이 아니라 신뢰성을 개선하는 해결하기 위한 절차에 대한 논의로서 성격이 상이하다고 판단했고, 신뢰성 역시 다른 원칙의 포괄하는 선언적 원칙이라는 점에서 계위가 다르다고 판단하였다.
세계경제포럼의 인공지능 원칙과 본 연구의 신뢰성 구성요소 역시 전반적으로 일치한다. 다만 세계경제포럼에서 책임성과 복원 및 교정을 동일한 계위에서 원칙으로 제시하였으나 복원 및 교정은 책임성의 원칙을 달성하기 위한 세부 수단으로 보는 것이 맞다. 또한 전문가 의무는 본 연구의 구성요소에서는 계위가 맞지 않아 포함시키지 않았으나, 책임성의 세부 항목인 인간의 관리감독을 구체화한 원칙이라고 볼 수 있다.

표 인공지능 신회성 구성요소 도출

인공지능 신뢰성 구성요소 도출
본연구		인공지능 윤리기준	하버드버크만	네이쳐	세계경제포럼
프라이버시보호		프라이버시 보호	프라이버시 보호	프라이버시 보호	프라이버시 보호
	데이터 주권 보호
	프라이버시 보호 역량 확보
견고성			안전과 보안	무해성	안전
	침해금지	침해금지
	안전성	안전성
공정성			공정성과 차별금지	정의 및 공정성	평등
	데이터 관리	데이터 관리
	다양성 존중	다양성 존중
투명성		투명성	투명성과 설명가능성	투명성	이해가능성
	사전고지
	주적성
	설명성
책임성		책임성	책임성	책임성	책임성
	인간의 관리감독		기술에 대한 인간의 통제
	이의제기, 피해산성 및 보상				복원 및 교정
인류가치 증진			인류가치 증진		웰빙
	인권보장	인권보장		존업성
	공공성	공공성		선행, 지속가능성

4-2. 인공지능 신뢰성 언론기사 빅데이터 분석
자율주행, 안면인식, 가상비서의 세 분야에 대한 부정기사에 대해 살펴보고, 인공지능 신뢰성의 관점에서 부정적 요인을 분석한 결과는 다음과 같다.
먼저 자율주행 분야의 부정적 요인은 인공지능 신뢰성 구성요소 중 견고성, 투명성과 관련도가 높았다. 자율주행 분야의 주요 부정적 기사는 자율주행 자동차와 관련된 사건 사고로 구성되어 있었으며, 큰 사고가 발생했던 2018년 상반기를 기점으로 대중의 부정적인 인식이 확산했다. 자율주행 자동차는 운전자 및 보행자의 인적 피해뿐만 아니라 차량간의 물적 피해가 발생할 수 있기 때문에, 자율주행에 대한 안전이 보장되어야 할 것이다. 이는 인공지능 신뢰성 구성요소 중 견고성과 이어지며, 일관성 있는 의사결정과 오류에 대한 대처가 중요하는 것을 보여준다. 또한 자율주행이 실제로 오작동을 했는지의 여부를 판단하기위해서는 투명성이 필요할 것이다.
안면인식 분야는 인공지능 신뢰성 구성요소 중 프라이버시 보호와 공정성에 관련도가 높았다. 프라이버시 보호는 딥러닝 이전에도 지속적인 문제가 제기되어왔고, 프라이버시 보호를 위한 규제도 이해관계자들의 합의(각종 법률안)가 있었기 때문에 현 시점에서는 의무사항으로 이해할 수 있다. 안면인식의 가장 큰 화두는 공정성이다. 안면 정보는 개인을 특정할 수 있는 고급 개인정보로 공공 목적의 추적과 감시에도 활용될 수 있다. 이에 각국의 정부 기관과 경찰은 안면인식을 활용한 개인의 식별을 추진해왔으나, 특정 그룹에 편향성이 발생하는 결과가 발생하여 시민 단체의 거센 반발이 지속되고 있다. 미국 내 다수의 시의회에서는 안면인식의 기술적 결함과 편향의 위험을 인지하고 시 단위의 안면인식 사용 금지를 추진하고 있으며, 안면인식 기술을 제공하는 글로벌 IT 기업 역시 안면인식에 대한 자율규제를 가장 강력히 시행하고 있다.
가상비서 분야의 인공지능 부정기사는 절대적인 수치나 비중에서 낮게 관측되었고, 그 이유는 가상비서의 핵심 기능이라고 할 수 있는 질의 응답에 인공지능이 제한적으로 사용되고 있다는 점이다. 가상비서는 앞으로 거대 사전 학습 모델 기반의 언어 모델이 상용화 되는 시점에 많은 이슈가 발생할 것으로 예상된다.
뉴스기사의 긍부정 분석 결과는 인공지능 신뢰성 구성요소의 중요도가 활용 분야별로 다르다는 것을 단적으로 보여준다. 이것은 신뢰할 수 있는 인공지능을 달성하기 위해서는 활용 분야와 상황을 고려하여 적용할 필요성이 있음을 시사한다.
뉴스기사의 긍부정 분석에는 다양한 애로사항이 존재했다. 먼저 키워드가 포함된 뉴스의 검색 결과는 인공지능과 직접적인 관련이 없는 데이터도 추출되었다. 이 부분을 해결하기위해 인공지능 부정 기사의 주요 내용을 정성적인 분석을 병행하였으나, 더 정밀한 조건을 부여하여 분석 대상 데이터를 수집할 필요성이 있다.
또한 뉴스기사에 대한 긍부정 분석 방법의 적절성 문제도 있다. 이것은 규칙 기반의 접근이나 딥러닝 기반 접근 모두에 해당한다. 뉴스기사는 대부분 사실 전달의 중립적인 내용을 나타내고 있다는 점에서, 실제 사람이 체감하는 긍부정을 기계로 판단하는데 한계가 있을 수 있다. 또한 특정 기사에 대한 개인의 판단도 편차가 있기 때문에 학습 기반의 방법론도 일관성을 유지하기 위해 추가적인 방법론적 보완이 필요할 것이다. 그러나 본 연구의 목표는 부정기사를 추출하는데 있기 때문에, 적절성 문제에 대해서는 비교적 자유로웠고, 기사의 정성적 분석을 추가함으로써 유의미한 시사점을 도출할 수 있었다.
4-3. 전문가 대상 인공지능 신뢰성 요구수준 분석
전문가 대상 인공지능 신뢰성 요구수준 분석 결과는 다음과 같다. 우선 인공지능 신뢰성 대분류간 상대적 중요도 평가 결과를 해석하면 다음과 같다. 프라이버시 보호, 견고성, 공정성, 투명성, 책임성, 인류가치 증진 등 6개의 인공지능 신뢰성 구성요소 대분류의 상대적 중요도 평가 결과, 견고성이 20.5점으로 가장 중요한 구성요소로 도출되었고 프라이버시 보호, 투명성, 책임성, 공정성, 인류가치 증진 순으로 나타났다.
인공지능이 본래 목적에 맞게 올바로 작동하도록 성능과 품질을 확보하는 것이 신뢰의 가장 기본적인 밑바탕이 된다는 점에서 견고성이, 그리고 개인정보보호법 등 법제화가 가장 빠르게 진행되었다는 점에서 사업을 위해 프라이버시 관련 법준수가 필수적이라는 점에서 프라이버시 보호가 높은 점수를 받았음을 알 수 있다. 또한 투명성의 경우 다른 신뢰성 구성요소가 제대로 준수되고 있는지를 파악하기 위해 기술적, 절차적으로 확보해야 하는 기본 요건이라는 점에서 높은 우선 순위를 받았다고 볼 수 있다.
또한 책임성은 인공지능의 신뢰성 문제가 발생했을 경우 사후적인 법적 책임을 명확히 하는 것으로서 개발 및 활용에 있어서 사전에 불확실성을 제거한다는 점에서 중간 정도의 중요도가 있다고 응답하였다. 반면 공정성과 인류가치 증진의 경우 중요한 요소라는 점에 있어서는 공감대가 형성되었으나, 선언적인 성격이 강하고, 실제고 각 구성요소에 대한 정의와 인식수준에 있어서 차이가 있어 구체적인 실천 방안으로서의 중요성은 떨어진다고 응답하였음을 알 수 있다.
그 다음으로 인공지능 신뢰성 대분류별 세부항목간 상대적 중요도 평가 결과를 해석하면 다음과 같다. 우선 견고성의 세부항복인 안전성과 침해금지의 상대적 중요도에 대해 안전성을 약 55점, 침해금지를 약 45점 부여했다. 침해금지에 비해 안전성을 더 중요하다고 판단한 결과인데, 의도하지 않은 결과가 나오지 않도록 인공지능의 개발 및 활용 전 과정에서 오작동 및 잠재적 위험을 방지하고 안전을 보장하는 것이 외부의 위협에 대응하는 것보다 견고성을 위해 더욱 중요하다고 판단했음을 알 수 있다.
프라이버시 보호의 세부 항목인 데이터 주권보호 및 프라이버시 보호역량 확보에 대해 각각 51점과 49점을 부여하여 거의 대등한 수준으로 중요하다고 보았다. 이는 개인정보보호법에서 강조하는 데이터 주체의 권리 보장과 기업 내부에서 차분 프라이버시, 연합 학습, 각종 익명화 기술 등 최근 큰 발전을 이루고 있는 프라이버시 보호 기술을 갖추는 것이 모두 중요하다고 판단한 결과로 볼 수 있다.
투명성의 경우 세부항목인 사전고지, 추적성, 설명성에 각각 34점, 29점, 37점을 부여하였다. 통상 인공지능의 투명성을 논할 때 결과에 대해서 인간이 이해할 수 있는 언어로 설명이 가능해야 한다는 점과 이용자 보호를 위해 인공지능이 적용될 경우 사전에 고지해야 한다는 조항이 가장 많이 언급된 결과를 반영했다고 볼 수 있다. 또한 추적성은 인공지능의 성능을 검증하거나 문제의 원인을 추적할 수 있도록 데이터 이력, 알고리즘 설계, 테스트 및 검증 방법, 결과 등을 공개해야 한다는 조항인데, 영업 비밀 보호 등의 관점에서 너무 과도한 요구라고 인식함을 알 수 있다.
책임성의 경우 세부 항목인 인간의 관리감독과 이의제기, 피해산정 및 보상에 대해서 모두 50점의 동등한 중요성을 부여했다. 전자가 사전 예방에 해당하고 후자가 사후 책임에 해당하므로 서로 대체하는 항목이 아니라 상호 보완관계라고 인식한 결과이다. 결국 책임성을 위해서는 더 세부항목이 모두 충족되어야 한다고 인식하고 있음을 알 수 있다.
공정성의 세부 항목인 데이터 관리는 59점을, 다양성 존중은 41점을 받았다. 편향성이 본질적으로 데이터의 대표성 부재에서 비롯되므로 데이터에 내재된 편향을 제거하고 보정하는 것이 공정성을 해소하기 위한 실용적 접근이라고 보았음을 알 수 있다. 반면 인공지능 개발 과정에서 다양한 배경을 지닌 사람들의 참여와 의견을 수렴한다는 다양성 존중은 선언적 항목으로 구체성이 떨어지며 이를 통해 공정성이 개선되는지 관리하기 어렵다는 측면에서 상대적으로 중요도가 낮다는 응답 결과가 나왔다.
인류가치증진의 세부항목인 인권보장과 공공성은 각각 58점과 42점을 받았다. 인공지능이 기본적으로 인간의 편리성 향성과 업무 효율성 개선 등을 위해 사용되며 이 과정에서 인간의 기본권이 보장되어야 한다는 점에서 인권보장이 높은 점수를 받았다. 반면 기후변화 등 인류의 난제를 해결하여 사회 후생을 높이는 공공성도 중요하지만 이는 본질적인 중요도 측면에서 인권보장보다 낮게 평가받았다.
신뢰성 구성요성의 13개 세부항목간 중요도를 비교하면 견고성의 안전성, 프라이버시 보호의 데이터 주권보호, 공정성의 데이터 관리, 견고성의 침해금지, 책임성의 이의제기, 피해 산정 및 보상 등 5개 항목의 상대적 중요도 9.0~11.4점으로 높게 나왔다. 반면, 투명성의 세부 3개 요소, 인류가치 증진의 세부 2개 요소, 그리고 공정성의 다양성 존중 항목 등 6개 항목은 4.3~6.9점으로 낮은 중요도를 기록했다.
전문가의 업무분야별 신뢰성 구성요소에 대한 중요성 인식수준을 보면 다음과 같은 특징이 있다. 첫째 법제도 분야 전문가가 타 분야 전문가보다 중요하다고 평가한 항목은 투명성, 책임성, 인류가치 증진이다. 투명성의 경우 최근 다수의 인공지능 관련 규제에서 요구하는 항목이며, 책임성은 사후적 법적 책임이란 관점에서 법률과 일맥상통하는 영역이다. 또한 인류가치증진은 법철학적 관점에서 중요하다는 평가를 받았다.
반면 기술분야 전문가는 프라이버시 보호와 공정성을 중요하다고 인식했다. 프라이버시 보호는 이미 법제도의 틀안에 포함되었기 때문에 기술분야 전문가 입장에서 반드시 준수해야 하는 항목으로 중요하다고 응답했다고 해석할 수 있다. 또한 공정성 역시 채용, 평가 등의 영역에서 인공지능을 개발하는 과정에서 다양한 문제를 야기하기 때문에 중요성이 높다고 판단했음을 알 수 있다. 또한, 정책분야 전문가는 다른 분야 전문가에 비해 고른 점수를 부여했으며 견고성을 상대적으로 중요하다고 판단했다. 인공지능 신뢰성 개선을 위해 기본적인 성능과 품질 요소가 중요하다고 판단했음을 알 수 있다.
주요 인공지능 서비스별 인공지능 신뢰성 구성요소의 중요도를 분석한 결과는 다음과 같다. 우선 응용서비스별로 중요한 신뢰성 구성요소는 매우 상이했다. 가령 대화형 인공지능의 경우에는 프라이버시와 견고성이 가장 중요한 요소로 조사되었다. 이는 앞서 가상비서 분야의 뉴스 기사 검색과 동일한 결과이다. 인공지능이 이용자와 대화하는 과정에서 개인정보를 실시한 수집하며, 이용자를 대신하여 정보를 찾거나 예약 업무 등을 수행하므로 성능의 우수성이 신뢰성에 높은 영향을 미친다고 볼 수 있다. 반면 개인의 사적 서비스 영역에 속하므로 인류가치 증진의 중요도가 낮고, 법적 책임의 가능성도 낮아 책임성의 중요도 역시 낮게 평가되었다.
인공지능 번역 역시 가장 많이 사용하는 서비스이지만, 신뢰성 관련하여 번역의 정확도가 무엇보다 중요하여 견고성이 30점 가까운 점수를 받았다. 그 외 번역 과정에서 성편향 등의 문제가 발생할 수 있어 공정성이 두 번째로 높은 공정성 요소로 평가받았다.
인공지능기반 쇼핑의 경우 구매이력이나 주소지, 결재정보 등 개인정보노출이 심해 프라이버시 보호가 가장 중요하다고 응답하였고 상품 추천 등의 인공지능 알고리즘의 성능이 중요하다는 점에서 이와 유사한 점수로 견고성이 중요하다고 응답하였다.
자율주행차의 경우 앞서 언론기사 분석에서 살펴본 바와 같이 사고가 발생하지 않도록 높은 성능을 유지해야 한다는 점에서 견고성이 가장 중요하다고 응답했고 사고 발생 시 법적책임을 명확히 해야 한다는 점에서 책임성이 그 다음으로 중요한 항목으로 도출되었다. 반면 공정성과 인류가치 증진은 중요도가 현저히 낮게 조사되었다.
생체인식 서비스의 경우 개인을 특정하는 중요한 데이터가 필요하기 때문에 프라이버시 보호의 중요성이 가장 높다는 결과가 나왔다. 그 다음으로 생체 인식에서 오작동이 발생하여 불합리한 결과가 도출되지 않도록 견고성이 중요하다고 응답하였다.
인공지능 심사의 경우는 공정성이 가장 중요한 요소로, 프라이버시 보호가 그 다음으로 중요한 요소로 조사되었다. 또한 결과에 대해 설명할 수 있어야 한다는 점에 있어서 투명성이 세 번째로 중요한 요소로 도출되었다.
인공지능 기반 의료의 경우 오진의 위험이 매우 높기 때문에 견고성이 가장 중요하다는 응답이 많았고, 개인의 민감정보가 다수 포함된다는 점에 있어서 프라이버시 보호가 두 번째로 높은 항목으로 조사되었다. 그 다음으로 잘못된 의료 행위가 발생했을 때 법적 책임을 져야 한다는 점에서 책임성이 중요하다고 응답하였다.
인공지능 서비스별 인공지능 신뢰성 구성요소의 중요성 결과를 보면 대부분의 서비스에 있어서 앞서 분석한 것과 같이 견고성과 프라이버시 보호가 가장 중요하다는 결론이 나왔다. 다만 서비스 특성별로 공정성(번역, 심사)이나 책임성(자율주행차, 의료) 등이 중요한 경우도 있었다.
4-4. 인공지능 신뢰성 기업준비도 조사
인공지능 신뢰성의 6대 구성 요소를 바탕으로 현장에서 점검 가능한 37개 세부 하위 항목에 대한 개발자 인식 조사와 분석을 수행하였다. 결과적으로 신뢰성 구성 요소에 대한 필요성과 중요성에 대한 인식 수준은 비교적 높은 것을 확인할 수 있었다. 하지만, 실행 가능성 측면에서는 현재 기술적 한계와 혁신의 속도, 시장 성장을 저해할 수 있는 우려로 인해 점검 목록의 적극적 활용을 위해서는 정책적 노력이 요구되는 것을 알 수 있었다.
본 연구에서는 정량적 설문 조사에서 담지 못한 현장의 의견을 청취하기에 위해 설문 참여자 중 적극적 정성 의견을 개진한 산업계 전문가를 중심으로 온라인 간담회를 추가적으로 진행1)하였다. 간담회 결과, 2021년 초 있었던 인공지능 챗봇 서비스 ‘이루다’ 사건을 계기로 업계에서는 인공지능 신뢰성에 대한 인식이 확산되었음을 확인할 수 있었다. 하지만, 이후 조치들은 인공지능의 윤리성, 공정성, 신뢰성의 구현 측면보다 개인정보보호 강화에 초점을 두는 방안으로 기업이 대응이 이뤄졌다는 의견이었다. 이루다의 학습 데이터가 개인정보보호를 침해했고 결과적으로 과태료와 서비스 잠정 중단으로 이어져 업계에서는 법적 대응을 위한 개인정보보호가 최우선이 된 것이다. 특히, 산업분야에 적용하는 인공지능 서비스 또는 솔루션 사업의 경우 인공지능 신뢰성 이슈에 보다 덜 민감한 측면도 확인하였다. 즉, ‘이루다’ 서비스로 인한 인공지능 신뢰성 이슈는 전반적으로 인공지능 신뢰성 확보를 위한 인식 확산의 계기는 되었으나 구체적인 대응 수준은 대기업, 중소기업 차별 없이 실무적 수준에서는 미진한 상황이었다.
인공지능 신뢰성 점검 목록과 관련해서는 설문조사에서의 대체적인 의견과 같이 그 필요성과 중요성에는 공감하나 제안된 점검 목록의 수준이 매우 상세하고 협소하다는 지적도 있었다. 보다 실효성 있는 점검 목록 개발을 위해서는 기술적으로 각 항목의 준수 여부가 시스템적으로 판단될 수 있는 수준의 점검 목록 개발도 고려가 필요하다는 의견이었다.
한편, 점검 목록 개발 시 인공지능 서비스의 목적을 보다 세분화하여 맞춤화된 점검 목을 마련할 필요성이 제기되었다. 실제로 규칙기반(rule-based system) 시스템이나 서비스의 산출물이 명확한 기업용(B2B) 애플리케이션의 경우 닫힌 서비스로서 포괄적 의미에서 인공지능 신뢰성이나 윤리성 문제는 크지 않은 것이 현실이다. 반면, 챗봇과 같이 일정한 답이 정해지지 않은 오픈서비스에서는 인공지능의 윤리성, 데이터 편향성, 신뢰성 문제가 심각한 결과로 이어질 수 있기 때문에 이러한 서비스의 유형을 보다 세분화하고 각 유형에 특화된 점검 목록 마련이 필요하다는 견해다.
한편, 점검 목록의 확산 측면에서 현재 비교적 적극적으로 대응하고 있는 대기업에 비해 중소기업의 경우 무엇을 점검해야할지 모르는 경우가 다반사이기 때문에 모범 사례나 정부 가이드라인을 잘 만들어 보급해 주는 것이 중요하다는 점도 확인할 수 있었다.
추가적으로 산업계 전문가들은 정책적 측면에서 현재 신뢰성 논의에 중심에 있는 챗봇과 같은 오픈서비스만큼 상대적으로 신뢰성 인식이 낮은 산업용 인공지능 서비스에서의 신뢰성 연구도 병행되어야 한다고 제안한다. 또한, 정확도를 요구하는 인공지능의 경우 데이터 품질, 학습 모델 품질 등 품질 수준 확보를 위한 정부 지침도 마련할 필요성이 있음을 지적하였다. 한편, 최근 이슈가 되었던 ‘안면인식 데이터’ 활용 관련 사회적 논란이 되지 않을 수 있도록 정부 인공지능 개발 사업에 참여하는 기업의 정확한 데이터 활용 지침도 필요하다는 의견이 있었다. 일본의 경우 국책연구기관을 통해 제조업에 쓰이는 기계학습의 품질 관리를 위한 지침을 마련하고 주기적으로 업데이트해 배포하고 있는 점을 참조할 필요가 있다.
산업계에서는 자체적으로 데이터 품질 보장을 위한 노력을 하고 있으나 데이터의 편향성을 제거할 경우 서비스의 차별성이 약화되는 딜레마도 존재하기 때문에 서비스의 목적에 맞게 자유로운 데이터 이용 가능해야 한다는 점을 지적하며 서비스 개발의 유연성을 확보할 수 있는 정책 마련도 제안하였다. 인공지능 학습의 원천인 데이터, 또는 인공지능 학습 모델의 활용에 있어 저작권 관련 이슈도 점검할 필요가 있음을 지적하였다. 즉, 데이터, 학습 모델을 외부로부터 원문, 원본 등을 구매, 추출해 활용하는데 이 경우 향후 사업화 시 문제가 될 수 있어 애초 데이터 이용 단계에서 저작권 문제가 없는 데이터 이용 환경을 조성 정책을 제안하였다.
인공지능 신뢰성 확보를 위한 점검 목록은 새로운 사업 기회 창출로 연결될 가능성도 제시되었다. 가령, 현재 인공지능 신뢰성은 성능의 정확성 지표로 대부분 측정되나 정확성을 인종별, 국가별, 상황별에 따라 세분화한 검증 기법들이 개발된다면 인공지능 개발업체들에 검증 툴킷으로 판매할 수 있는 기회가 될 수 있다. 실제로, 인공지능의 설명가능성과 관련해서는 해외 IT기업들의 공정성 툴킷을 쓰거나 자체적으로 데이터품질, 학습 모델을 사람수준에서 이해하는 노력 진행하고 있다. 구글의 경우 Ethics-As-a-Service 비즈니스 모델을 제안하며 인공지능 윤리성, 신뢰성을 검증하는 서비스를 새로운 수익 모델로 검토중이다(WIRED, 2018). 미국의 경우 향후 설명가능하지 않은 인공지능 시스템을 공공 조달에 참여하지 못하게 하는 규제도 논의 중이며 일본 역시 인공지능 제품의 공공 조달에 대한 지침을 마련하는 등 공공 소프트웨어 시장에서의 인공지능의 신뢰성 요건이 중요한 입찰 자격요건이 되고 있다 (일본경제산업성, 2018, 2021). 하지만, 설명가능성의 한계를 가진 딥러닝 기술이 빠르게 보급되고 다양한 분야에서 적용되는 현실을 고려하여 설명가능성을 필수적 신뢰성 요소로 강요하는 것은 지나친 규제가 되어 인공지능 성장을 저해할 수 있는 우려가 역시 제시되어 필수적 구비가 필요한 점검 목록과 자율적 서비스 경쟁력 제고에 도움이 점검 목록을 구분하여 점검 목록의 마련이 필요함을 확인할 수 있었다.
요컨대, 정량적 개발자 설문조사와 정성적 전문가 간담회를 통해 제안된 인공지능 신뢰성의 구성요소와 하위 점검 항목들은 대체로 현장 검토 가능성이 있는 것으로 판단된다. 다만, 인류가치증진과 같은 추상적 구성 요소는 모든 제품 및 서비스의 공통된 목표로 인식제고 차원의 의미는 크나 실무적 차원에서 실효성은 크지 않은 것으로 판단된다. 반면 인공지능의 다양한 유형, 개발 단계 및 절차 등을 더욱 세분화하여 기업이 조직적, 기술적으로 대응 가능한 수준의 점검 목록을 맞춤화하여 개발할 필요성이 있음을 알 수 있었다. 즉, 제안된 인공지능 신뢰성 점검 목록은 일반적 인공지능 서비스에 공통적용을 검토하기 위한 표준 템플릿으로 활용가능하며 금융, 의료, 제조, 교육, 국방, 등 다양한 분야에 적용되기 위해서는 분야 및 산업 특화된 점검 목록의 개발과 지속적 보완과 배포 확산 노력이 요구된다.
4-5. 인공지능 신뢰성 기술도구 분석
인공지능 신뢰성 기술도구(Toolkit) 분석 결과, 인공지능 개발 과정에서 기술적으로 확보할 수 있는 인공지능 신뢰성은 매우 제한적임을 확인할 수 있었다. 또한 인공지능 신뢰성 구성요소는 기술적 접근뿐만 아니라 비기술적(non-technical) 또는 제도적 접근이 필요하며, 상호 간의 유기적인 연계가 필요하다. 예를 들면, 책임성의 경우 인공지능이 문제를 일으켰을 때 그 원인을 파악하기 위해서는 적어도 인공지능이 내린 의사결정의 인과관계를 알아야 하고 이를 위한 기술이 필요하다. 또한 제조물책임법이나 인공지능 관련 규제를 통해 법적 책임을 묻고 피해를 구제하는 절차가 뒷받침되어야 한다. 인공지능의 신뢰성 제고를 위한 법제도적 관점에서 본 장의 AI 신뢰성 기술도구 분석의 결론은 다음과 같이 요약할 수 있다.
AI 신뢰성 도구를 이용하여 현장에서 바로 활용할 수 있는 수준으로 개발된 인공지능 신뢰성 구성요소는 프라이버시 보호이다. 프라이버시 보호의 경우 이미 국가별로 다양한 규제가 마련되어 있다. 또한 인공지능 개발 과정에서 데이터 수집은 가장 먼저 이루어진다는 점에서, 인공지능 개발 주체는 수집하고자 하는 개인정보에 대해 반드시 프라이버시 보호를 이행해야 할 의무가 있다. 뿐만 아니라 차분 프라이버시, 암호화 등 프라이버시 보호를 위한 기술적 수단이 상대적으로 잘 개발되어 있다. 따라서 프라이버시 보호를 위한 기술도구는 이 의무사항을 달성할 수 있는 효율적인 방법을 제공하고 있어 실제 상황에서 활용될 가능성이 높다.
공정성의 경우는 개인에 대한 차별 금지 관련 법률과 맞물려 있다. 그러나 공정성은 개념이 매우 복잡하고, 특정한 공정성 원칙을 충족시키기 위해 다른 공정성 요건이 훼손되는 경우가 많아, 인공지능 활용 분야에 따라 적절한 공정성 정의와 개념을 적용해야 한다는 어려움이 있다. 예를 들어 범죄 예측, 복지 대상 선별 등 공공목적의 인공지능 활용에 대해서는 인종, 성별, 나이, 종교 등 차별 금지 법률에서 명시하고 있는 공정성을 반드시 확보해야 한다.
반면 이익을 추구하는 기업에서 상품 판매 대상을 선별하는 경우에는 이익을 추구와 공정성 간에 상충관계가 발생할 수밖에 없기 때문에 보다 현실적인 공정성 개념을 적용할 필요가 있다. 예를 들어, 대출 가능 심사 여부를 판단하는 인공지능 모델이 나이와 큰 상관관계가 있다고 가정하자. 이럴 경우 특정 연령대를 차별한다는 이유로 나이와 관련된 데이터를 제거한 후 대출 심사를 한다면 채무 불이행 확률이 높아져 금융기관의 수익성이 악화되고 결국 수탁자 의무를 다하지 못하는 문제가 발생한다. 뿐만 아니라 나이를 제거하고 인공지능 모델을 개발했을 경우에도 연령과 상관관계가 높은 데이터(예 – 소득 수준)로 나이대를 특정시킬 가능성이 있다. 만약 나이를 추정할 수 있는 모든 가능성을 배제시키는 인공지능 모델을 개발했을 경우, 나이 자체가 대출 가능 여부와 큰 상관관계가 있다는 점에서 성능 저하가 발생할 수 있다. 이 문제는 인공지능 모델에 활용되는 학습 데이터가 이미 편향을 가지고 있다는 원론적인 문제로 귀결된다. 따라서 현재 공정성을 확보하기 위한 학습 데이터 분포의 시각화 및 편집 기능, 학습 데이터의 편향 완화 방법 등을 제공하고 있지만 공정성을 기술적으로 충분히 확보하는 것은 여전히 한계가 많다.
한편, 인공지능 신뢰성 이슈가 불거진 사건의 면면을 살펴보면 공통적으로 딥러닝이라는 키워드가 등장한다. 바로 딥러닝으로 인해 과거에는 불가능으로 여겨졌던 일들이 하나씩 실현됐기 때문이다. 딥러닝의 모태는 1980년대 개발된 인공신경망이다. 인공신경망은 인과관계가 불투명한 전형적인 블랙박스(Black box) 모델로, 딥러닝의 경우 더 깊은 인공신경망을 활용한다는 점에서 인과관계를 도출하기가 매우 어렵다.
인공지능 신뢰성에서 요구하는 설명성 혹은 설명가능성은 다양한 수단으로 입력과 출력의 인과관계를 적절하게 표현하는 것을 말한다. 이 인과관계는 다른 인공지능 신뢰성 구성요소에서도 중요한 역할을 한다. 공정성의 경우 어떠한 입력값에서 어떠한 항목이 결과에 영향을 미치는지 원인을 파악할 필요가 있다. 또한 견고성에서는 악의적인 공격을 방어하기 위해서는 인공지능 모델의 인과관계를 바탕으로 추적해야 한다. 따라서 인공지능 설명성의 확보는 기술적으로 우선순위가 높다고 볼 수 있다.
그러나 AI 설명성을 강제하기에는 아직 기술적 성숙도가 낮은 상황이다. 우리나라를 비롯한 여러 국가에서 설명가능한 인공지능 연구개발에 예산을 투입하고 있으나, XAI는 원천기술이며 도전적인 영역이기 때문에 저변확대가 어려운 상황이다. 현재는 특정한 결론에 영향을 미친 매개변수를 확인하는 수준이기 때문에 ‘해석가능한 인공지능(Interpretable AI)’라는 용어를 사용하기도 한다. 뿐만 아니라 인공지능 모델의 과도한 투명성 요구는 기업의 영업 비밀이나 원천 기술에 대한 공개를 의미하기 때문에 기술적 성숙도와 이해관계자들의 합의 없이 투명성에 대한 법⋅제도적 규제가 강행된다면 결과적으로 인공지능 활용이 경색되는 국면에 진입할 것이다.
컴퓨터 공학에서 사용되는 기술도구(Toolkit)는 사용자가 별도의 지식이 없이도 특정 기능을 활용할 수 있는 프로그래밍 도구를 의미한다. 인공지능 신뢰성 기술도구의 경우 어려운 연구 논문에서 제안하고 있는 다양한 인공지능 신뢰성 확보 기술들을 사용하기 쉽게 구현함으로써 인공지능 개발자의 접근성을 낮춘다고 볼 수 있다.
그러나 현 시점의 인공지능 신뢰성 기술도구는 법⋅제도적 규제의 여부에 따라 활용가능 여부가 결정되는 경향이 있다. AI 신뢰성은 선제적인 법⋅제도적 규제로 인해 기술적인 성숙을 가속화시킬 수 있으나, 기술적 구현이 매우 어려운 AI 신뢰성 구성요소를 규제한다면 AI 산업이 위축될 위험이 농후하다. AI 신뢰성 기술 도구가 진화하기 위해서는 △ 더 풍부한 연구 결과가 필요하며, △ AI 기업의 AI 신뢰성 인식 확산을 통한 적극적인 도입이 필요할 것이다.
4-6. 인공지능 신뢰성 정책 분석
인공지능 신뢰성 관련 법제도는 적용 대상에 따라 △인공지능 기술에 대한 규제, △인공지능이 활용되는 특정 제품 및 서비스에 대한 규제로 나눌 수 있으며 각각의 특징은 다음과 같음을 확인했다.
EU 인공지능 규제안, 미국 알고리즘 책임법안, 캐나다 자동화된 의사결정에 관한 지침 등 인공지능 기술에 대한 규제는 인공지능에 초점을 맞춘 만큼 인공지능 신뢰성 구성요소를 대부분 포괄하며 가장 구체적인 규제 지침을 제공하고 있다는 특징이 있다. 다만 모든 인공지능을 규제 대상으로 삼지 않고, 영향력이 크고 오남용으로 인한 피해 규모가 큰 인공지능을 사전에 정의한 후 이에 해당하는 인공지능만을 규제 대상으로 삼았다.
미국 워싱턴주 공공기관 얼귤인식 사용에 관한 법률, 미국 일리노이주 인공지능 화상면접법 등 특정 제품 및 서비스에 관한 규제는 제품과 서비스의 특성을 고려해 특정 인공지능 신뢰성 구성요소를 높이기 위한 규제에 초점을 맞추고 있다. 가령 미국 워싱턴주의 얼굴인식 사용에 관한 법률은 프라이버시와 공정성에 관련된 조항이 강조되어 있다.
마지막으로 EU 디지털서비스법안과 일본의 디지털플랫폼의 투명성 및 공정성에 관한 법률 등 시장지배적 사업자를 대상으로 이들이 인공지능을 활용한 불공정 행위를 규제하기 위한 법률은 투명성과 책임성을 강화하는 조항이 강조되어 있다. 이를 통해 인공지능을 이용해 불공정행위를 했는지 여부를 플랫폼 참여 기업이나 소비자, 또는 규제당국이 확인할 수 있도록 충분히 설명하고 자료를 제공할 의무를 부여하고 있으며, 문제 발생 시 책임을 지도록 강제하고 있다.
4-7. 결론
본 연구의 주요 결론은 다음과 같다.
첫째, 전문가 대상 인공지능 신뢰성 구성요소에 대한 중요도 파악 결과, 견고성, 프라이버시, 투명성, 책임성 순으로 중요하다는 결과가 나왔다. 견고성은 인공지능이 목적과 의도에 맞게 성능을 제대로 발휘하는 것이 신뢰성 확보의 선결 조건으로 인식함을 확인했다. 프라이버시 보호는 이미 대부분의 국가에서 개인정보보호법을 시행 중이라 선택이 아닌 필수로 인식하고 있었다. 투명성은 문제의 원인을 파악하고 책임소재를 묻기 위해 인공지능의 작동원리에 대한 설명가능성과 투명성은 핵심 요건으로 중요하게 인식하고 있음을 확인했다.
둘째, 인공지능 뉴스기사 감성 분석 결과, 서비스 분야별 신뢰성의 상대적 중요도가 상이함을 확인했다. 가령, 인공지능 신뢰성에 부정적인 영향을 미치는 기사 비중은 안면 인식 23%, 자율주행차 20%임에 반해 가상 비서는 약 4%에 불과함을 확인했다. 또한 서비스 분야별 신뢰성 구성요소 간 상대적 중요도 역시 상이했는데, 안면인식은 프라이버시 보호와 공정성, 자율주행차는 견고성과 투명성 등이 중요함을 확인했다. 또한 뉴스기사 감성 분석 결과는 전문가 대상 인공지능 서비스 별 신뢰성 중요도 조사와 유사한 결과가 나왔음을 확인했다.
셋째, 인공지능 기업의 인공지능 신뢰성 개선에 대한 준비도를 분석한 결과 인공지능 개발 기업은 인공지능 신뢰성을 점검하는 것이 필요하다고 인식함을 확인했다. 5점 척도로 설문한 결과 책임성을 제외한 신뢰성 구송요소의 필요성 수준은 4점 이상으로 응답하였다.
하지만 대다수의 인공지능 개발 기업은 인공지능 신뢰성을 점검하는 내부 시스템을 보유하지 있지 않은 것으로 조사되었다. 입법화가 이미 완료된 프라이버시(개인정보보호) 외에 신뢰성 구성요소를 점검하는 기업의 비중은 50% 미만에 불과했다.
인공지능 신뢰성 점검 여부
넷째, 실제로 기업에서 활용 가능한 인공지능 신뢰성 기술도구의 기능은 매우 제한적이다. 따라서 프라이버시 보호 일부를 제외하면 현재 수준의 기술도구를 이용해 신뢰성을 관리하는 것은 한계가 있음을 확인했다.
마지막으로 주요국 인공지능 법제도 분석 결과, 인공지능 관련 법제도는 대상에 따라 내용과 범위가 상이함을 확인했다. 우선 인공지능 기술 대상 법제도는 인공지능 신뢰성 구성요소를 대부분 포괄하며 가장 구체적이고 강력한 규제 지침을 제공하고 있었다. 또한 특정 인공지능 제품 및 서비스 대상 법제도는 제품과 서비스의 특성을 고려해 특정 신뢰성 구성요소를 규율함을 확인했다. 한편, 플랫폼 사업자 등 인공지능 사업자 대상 법제도는 불공정한 시장 지배력 남용 행위와 관련하여 투명성과 책임성을 규율하고 있었다.

- 5. 정책적 활용 내용
- 본 연구의 일부 내용은 2021년 5월 관계부처 합동으로 발표한‘신뢰할 수 있는 인공지능 실현 전략’에 포함되었으며, 이 후 실현 전략을 구체화하기 위해 추가적인 분석을 진행하였다. 본 연구를 기반으로 2022년부터 매년 글로벌 인공지능 신뢰성 동향 분석과 인공지능 신뢰성 기술 수준 조사를 수행하여 관련 정책을 기획하고 사업을 추진하는 정책 자료로 제공할 예정이다.
- 6. 기대효과
- 인공지능 신뢰 체계를 정립하기 위해 수행된 본 연구를 통해 인공지능에 대한 국민의 우려를 줄이고, 기업이 관련 이슈에 효과적으로 대응할 수 있는 정책을 개발하는데 도움이 될것으로 기대한다. 인공지능 역기능을 예방하는 다양한 정책을 마련함으로써 인공지능에 대한 사회적 수용도를 제고하고 기술의 지속적 발전을 유도함으로써 궁극적으로 인공지능을 활용 확산에 기여할 수 있다.
- 1) 인공지능 분야 대기업, 중소기업 실무 책임자 및 대표 5인, 지능정보산업협회 및 소프트웨어정책연구진 연구진 3인 총 8명이 참여한 온라인 간담회 진행 (2021년 12월 21일)

- 제1장 서론
- 제1절 연구 배경 및 목적
- 제2절 연구의 절차 및 방법
- 제2장 인공지능 신뢰성 구성요소 도출
- 제1절 국내외 인공지능 원칙 분석
- 제2절 인공지능 신뢰성에 관한 메타분석 연구
- 제3절 인공지능 신뢰성 구성요소 도출
- 제3장 인공지능 신뢰성 뉴스기사 빅데이터 분석
- 제1절 분석 개요
- 제2절 분석 결과
- 제3절 소결
- 제4장 인공지능 신뢰성 요구수준 분석
- 제1절 전문가 설문조사 개요
- 제2절 설문조사 분석 결과
- 제3절 소결
- 제5장 기업의 인공지능 신뢰성 준비도 분석
- 제1절 조사 개요
- 제2절 분석 결과
- 제3절 소결
- 제6장 인공지능 신뢰성 기술도구 현황
- 제1절 인공지능 신뢰성 기술도구 개요
- 제2절 인공지능 신뢰성 기술도구 분
- 제3절 소결
- 제7장 주요국 인공지능 신뢰성 정책 현황
- 제1절 해외 인공지능 신뢰성 정책 현황
- 제2절 소결
- 제8장 결 론
- 참고문헌