의료데이터 활용을 위한 개인정보 비식별화 기술 및 프로그램 동향
의료데이터 활용을 위한 개인정보 비식별화 기술 및 프로그램 동향
[목차]
I. 의료데이터 활용을 위한 개인정보 비식별화 조치 기술의 필요성
II. 국내의 개인정보 비식별화 기술 및 솔루션 프로그램 동향
III. 해외의 개인정보 비식별화 기술 및 솔루션 프로그램 동향
Ⅳ. 국내와 해외의 비식별화 기술 및 솔루션 프로그램 동향 비교
Ⅴ. 결론 및 시사점
[내용]
Ⅰ 의료데이터 활용을 위한 개인정보 비식별화 조치 기술의 필요성
■ 의료데이터 양의 폭발적인 증가는 의료 서비스의 비용절감 등 사회 시스템의 혁신을 불러일으킬 수 있는 영역으로 평가
● Dell EMC(2014)는 의료데이터가 2013년 153EB에서 2020년 2,314EB로 증가할 것으로 전망
※ 1EB(엑사바이트)는 1,000,000TB(테라바이트)에 해당하는 데이터 단위
● McKinsey(2013)는 미국 보건 의료부문의 빅데이터 활용의 용이성이 높고 경제에서 차지하는 비중이 커질 것으로 기대
- 미국 보건의료 부문에서만 연간 최대 1900억 달러의 비용절감을 실현시킬 수 있다고 전망
● 국내 의료데이터의 활용으로 관련 산업의 성장을 활성화 시키기 위해 정부 산하기관은 보유하고 있는 의료데이터를 활용할 수 있도록 정책 지원 업무를 하고 있음
- 건강보험공단에서는 NHISS 포털을 통해 건강보험통계, 관심질병통계 등 다양한 통계데이터를 제공
- 건강보험심사평가원은 요양기관, 의약품, 진료정보 등의 데이터 셋과, 주요 의료통계, 질병/행위별 의료통계 등을 제공
● 의료 데이터의 분석과 활용은 의료서비스의 품질개선, 개인별 질병진단 및 치료서비스 향상 등 의료 시스템 전반에 걸쳐 혁신을 유도할 수 있을 것으로 예측
■ 의료 데이터 활용에 대한 전망과 기대가 높은 반면, 개인의 민감한 정보를 많이 담고 있어, 개인정보 보호의 기술적 대책이 필요
● 의료데이터의 활용으로 개인정보의 경제적 가치가 부각되면서 안전한 개인정보 보호의 수단으로 비식별화기술이 주목 받고 있음
- 호주 개인정보 보호위원회(The Australian Privacy Comissioner)는 비식별화 기술을 로켓 사이언스(Rocket science)에 비유하며, 개인정보 활용과 보호의 균형적 조화를 해결할 수단이 될 수 있다고 언급
● 미국 ITRC(Identify Theft Resource Center)는 정보유출이 보건의료 분야에서 매년 높은 비율로 증가하고 있다고 발표하고 데이터 보호에 대한 문제해결이 시급하다고 언급
- 보건의료 분야의 의료 데이터 유출과 개인정보에 대한 보안을 위해 HCIC(Healthcare Industry Cybersecurity) 태스크포스 팀*을 구성
* HCIC(Healthcare Industry Cyber-security) 태스크포스 팀 : 2016년 창설된 TF팀은 사이버보안법(The Cybersecutiry Act of 2015)의 하위로 활동하며 2017년 사이버보안을 발전시키기 위한 전략방안을 보고
■ 의료데이터의 활용은 정보유출의 위험성뿐만 아니라 재식별의 위험성이 부각되며, 이와 관련하여 비식별 기술 개발이 주목받고 있음
■ 의료데이터 기반의 보건산업 발전과 성장을 위해 데이터를 보호하고 이를 안전하게 활용할 수 있도록, 비식별화 조치에 대한 기술 개발이 요구되는 상황
■ 본고에서는 의료데이터의 활용을 위한 최근 국내외 비식별화 기술 동향을 조사하고, 국내의 비식별화 기술에 대한 정책적인 시사점을 도출하고자 함
Ⅱ 국내의 개인정보 비식별화 기술 및 솔루션 프로그램 동향
■ 범부처 합동으로 ‘개인정보 비식별 조치 가이드라인(2016)’을 발간하고 이를 통해 비식별화 조치 기법과 적정성 평가 모델을 제시
● 개인 식별정보*는 원칙적으로 삭제 하되, 데이터 목적상 필요한 부분에 대해서만 비식별화 조치를 권고
* 개인 또는 개인과 관련한 사물에 고유하게 부여된 값 또는 이름
- 일반적 비식별 조치 기법으로 가명처리, 총계처리, 데이터 삭제 등 5가지 기법과 17가지 세부기술을 제시
● 비식별 조치된 데이터의 재식별 가능성을 낮추기 위해 비식별화 조치가 적정하게 이루어졌는지 파악하는 적정성 평가에 관한 모델을 제시
- 개인정보 비식별 조치 가이드라인에서는 적정성 평가 모델로 k-익명성 모델을 최소한의 평가수단*으로 제시
* k-익명성 모델을 최소한의 평가수단으로 k-익명성 ‘3’이 되도록 권고함
- 필요시 추가적인 평가모델로 l-다양성 모델과 t-근접성 모델 활용을 제안
■ 비식별 조치 적정성 평가 모델인 k-익명성, l-다양성, t-근접성 모델 제안
● k-익명성(k-anonymity) 모델
- 전체 데이터에서 동일한 속성 값을 갖는 레코드를 ‘k’개 이상으로 유지하여 식별 확률을 1/k로 낮추는 모델
- ‘k’값이 증가한다는 것은 동일한 속성을 갖는 레코드의 개수가 증가한다는 의미
- 동질성 공격과 배경지식에 의한 공격에 취약하며, 이를 보완하기 위해 l-다양성 모델이 등장
● l-다양성(l-diversity) 모델
- 데이터의 민감한 속성에 대해 각 레코드별로 ‘l’개 이상의 서로 다른 값을 가질 수 있도록 하는 모델
- ‘l’값이 증가한다는 것은 전체 집합에서 민감 속성의 속성 값이 다양해진다는 의미
- 쏠림 공격과 유사성 공격에 취약하며, 이룰 보완하기 위해 t-근접성 모델이 제시
● t-근접성(t-closeness) 모델
- 특정 데이터 집합의 분포와 전체 데이터 집합의 분포가 ‘t’이하의 차이를 보일 수 있도록 하는 모델
- ‘t’값은 0~1의 범위를 갖으며, 0에 가까울수록 특정 데이터의 분포와 전체 데이터 분포의 유사성이 강해진다는
의미
※ 가이드라인에서는 k-익명성 모델을 최소한의 적정성 평가모델로 권고하였으며, 필요시 l-다양성, t-근접성 모델을
활용하도록 제시