프로그램
일 시 2016. 5. 9(월) 09:30~12:30
장 소 소프트웨어정책연구소 회의실 (판교글로벌R&D센터)
주 제 의료분야의 개인정보 보호 이슈
발 제 자 신수용 (서울 아산병원, 의생명정보학과 교수)
참 석 자 SPRi 연구진

[AI for Healthcare]

◦ Healthcare의 데이터들의 Source는 의료기관(Clinical data), 공공기관(Claim 데이터), 공공기관(기상청, 환경부 등), 환자가 자가 생성한 개인데이터(Patient-Generated Health Data와 구매목록이나 SNS Data와 같은 Lifelog)

◦ Healthcare의 데이터 형태는 Text, Image, Video, Code, Sound 등으로 구성

◦ 2011년 기준, 전 세계의 의료 데이터는 500 petabytes이며 2020년 기준 25000 petabytes가 될 것으로 추정됨

◦ IBM 자료에 의하면 Clinical data가 10%에 불과하고 유전체 데이터는 30%, 나머지 60%가 일생동안 생성하는 외부(라이프)데이터임

◦ 국내 EMR 보급률은 92% 이상이나 실제적으로는 부분적 도입(전체의 34.1%)과 영상 EMR(종이로 쓰고 스캔하여 저장)을 사용한 부분 등을 포함된 수치임

◦ 현재 EMR은 Word Processor수준으로 대부분 Text, 수많이 많은 약어, 복잡하고 전문적 의학용어와 약어의 경우, 의사마다 진료과마다 다름(통일성 zero)

◦ NLP(자연어처리)는 미국/외국의 경우는 가능하나, 한국은 통일되지 않은 약어, 전문의학용어, 문장이 아닌 phrase 형태 등의 이슈로 현재 수준으로는 잠정적으로 어려움

◦ Regular expression은 잘됨, 일부 검사보고서(병리보고서)는 semi-structure로 패턴만 알면 99%정도의 정확도로 data추출이 가능하나 의료진의 높은 기대치가 제약사항

◦ Clinical data의 정확성이 보장되지 않음- 타과 진료 시 진단명이 정확히 기재된 환자가 일부분으로 Post-annotation이 반드시 필요

◦ Claim data의 경우 전국민 데이터라는 상징성은 존재하나 돈을 받기 위한 청구용 데이터로서 실제 환자 진료 데이터와 불일치되거나 일부 데이터만 존재

◦ 컴퓨터에 익숙한 영상의학과 교수들을 대상으로 딥러닝이 가장 잘 할수 있는 Image/Video에 집중하는 것이 효율적

◦ 데이터 확보는 Clinical data가 얻기 어려우므로 환자가 생성한 PGHD(Patient-Generated Health Data) 역시 새로운 대안이 될 수 있음

- POCT(Point-of-care testing) 장비들의 발전으로 손쉽게 데이터 획득 가능하며 지속적 모니터링이 가능하다는 장점이 존재

◦ 극복해야 할 장벽으로는 진료현장에서 사용하기 위한 임상시험/CDSS의 경우, 식품의약안전처의 승인이 필요/data integration을 위한 표준 준수 미비/Clinical data 활용을 위한 개인동의 필요 등이 있음

◦ 의사는 면허직이므로 인공지능 의사에게 라이선스를 줄 것인지? 의료 사고시 책임은 누가 질 것인지에 대한 고민이 필요

[Privacy Protection for Healthcare]

◦ 의료와 관련된 개인정보보호 법률체계는 개인정보보호법, 의료법, 건강검진기보넙, 국민건강보험법, 보건의료기본법, 응급의료에 관한법률, 생명윤리 및 안전에 관한 법률 등 다수 존재

◦ 개인정보 vs. 민감정보 vs. 고유식별정보

- 집에서 잰 키/몸무게가 민감정보인가? 명확히 규정할 수 없는 것이 현실

◦ 개인의 정보를 활용하여 연구를 진행하기 위해서는 개인정보보호법과 생명윤리 및 안전에 관한 법률을 따라야 함

- 개인정보보호법에 의해서 환자 정보를 사용하기 위해서는 동의를 받아야 함, 대규모 사용을 위해서는 익명화가 답
- 생명윤리 및 안전에 관한 법률에 따르면 사람을 대상으로 한 물리적 개입(약 처방 등), 설문조사/행동관찰 등으로 자료를 얻는 연구 등도 심의를 받아야 함

◦ “개인의료정보”가 무엇인지에 대한 명확한 정의가 없음

◦ 연구용으로 활용하기 위해서는 비식별화가 필요하나 “무엇을”,“어떻게” 해야 할지는 명확하지 않음 (즉, 무엇이 개인을 식별할 수 있는 정보인지 명확하지 않음)

◦ 개인식별 정보를 구분하자면 직접적 개인식별정보/조합을 통해 개인식별이 가능한 정보/간접적 개인식별 정보로 구분 가능

◦ 의료용 개인정보 보호은 미국의 HIPAA가 대표적이며 의료 정보의 18가지 정의와 가이드라인 존재

◦ “개인정보 활용 방법:비식별화”에 의해 의료 데이터의 삭제/총계처리/범주화 등을 진행하면 개인의 개별 데이터의 중요성이 사라짐

◦ 비식별화 혹은 익명화를 하더라도 상업적 목적의 활용은 불가함

◦ 결국 Healthcare data중에 Personal Healthcare data를 구분하여 대상 정보만 비식별화 처리를 하는 것이 중요함

의료분야의 개인정보보호 이슈 - 신수용 (서울 아산병원, 의생명정보학과 교수)

키워드 인공지능 의료 AI AI for Healthcare 개인정보보호 개인의료정보 의료 정보 비식별화