Healthcare data 익명화 (2): 익명화란?

앞 글에서 개인건강식별정보에 대해서 한번 알아보았다.

Healthcare data 익명화 (1): 개인건강식별정보란?

불행이도 결론은.. “국내엔 아무것도 정의된 것이 없다” 였지만.. 우선 있다고 하고 넘어가자.

이번 글에서는 익명화의 방법에 대해서 상세히 정리해 보고자 한다.

anon

익명화!

익명화가 왜 중요한 문제냐 하면 빅데이터 분석을 위해서 현실적인 방법이기 때문이다.

의료정보의 이차적 활용(진료 및 병원 운영에 관한 목적 외; 홍보, 연구, 교육 등)에 대해서 명시한 생명윤리 및 안전에 관한 법률 에 의하면 의료정보를 이차적으로 활용하기 위해서는 기술되어 있다. 

제16조(인간대상연구의 동의) ① 인간대상연구자는 인간대상연구를 하기 전에 연구대상자로부터 다음 각 호의 사항이 포함된 서면동의(전자문서를 포함한다. 이하 같다)를 받아야 한다.

1. 인간대상연구의 목적

2. 연구대상자의 참여 기간, 절차 및 방법

3. 연구대상자에게 예상되는 위험 및 이득

4. 개인정보 보호에 관한 사항

5. 연구 참여에 따른 손실에 대한 보상

6. 개인정보 제공에 관한 사항

7. 동의의 철회에 관한 사항

8. 그 밖에 기관위원회가 필요하다고 인정하는 사항

② 제1항에도 불구하고 동의 능력이 없거나 불완전한 사람으로서 보건복지부령으로 정하는 연구대상자가 참여하는 연구의 경우에는 다음 각 호에서 정한 대리인의 서면동의를 받아야 한다. 이 경우 대리인의 동의는 연구대상자의 의사에 어긋나서는 아니 된다.

1. 법정대리인

2. 법정대리인이 없는 경우 배우자, 직계존속, 직계비속의 순으로 하되, 직계존속 또는 직계비속이 여러 사람일 경우 협의하여 정하고, 협의가 되지 아니하면 연장자가 대리인이 된다.

③ 제1항에도 불구하고 다음 각 호의 요건을 모두 갖춘 경우에는 기관위원회의 승인을 받아 연구대상자의 서면동의를 면제할 수 있다. 이 경우 제2항에 따른 대리인의 서면동의는 면제하지 아니한다.

1. 연구대상자의 동의를 받는 것이 연구 진행과정에서 현실적으로 불가능하거나 연구의 타당성에 심각한 영향을 미친다고 판단되는 경우

2. 연구대상자의 동의 거부를 추정할 만한 사유가 없고, 동의를 면제하여도 연구대상자에게 미치는 위험이 극히 낮은 경우

④ 인간대상연구자는 제1항 및 제2항에 따른 서면동의를 받기 전에 동의권자에게 제1항 각 호의 사항에 대하여 충분히 설명하여야 한다.

기본적으로 서면동의 (written consent)를 받아야 한다. 다만 3항에 의해 “익명화”를 하면 서면동의가 면제될 수 있다.  구체적인 사항은 생명윤리법 시행규칙 제13조에 있다. (아래 사항은 심의면제 내용이긴 하나, 심의가 면제되는 것이 동의가 면제되는 것보다 더 상위라..)

제13조(기관위원회의 심의를 면제할 수 있는 인간대상연구)법 제15조제2항에서 “보건복지부령으로 정한 기준에 맞는 연구”란 일반 대중에게 공개된 정보를 이용하는 연구 또는 개인식별정보를 수집·기록하지 않는 연구로서 다음 각 호의 어느 하나에 해당하는 연구를 말한다.

1. 연구대상자를 직접 조작하거나 그 환경을 조작하는 연구 중 다음 각 목의 어느 하나에 해당하는 연구

가. 약물투여, 혈액채취 등 침습적(侵襲的) 행위를 하지 않는 연구

나. 신체적 변화가 따르지 않는 단순 접촉 측정장비 또는 관찰장비만을 사용하는 연구

다. 「식품위생법 시행규칙」 제3조에 따라 판매 등이 허용되는 식품 또는 식품첨가물을 이용하여 맛이나 질을 평가하는 연구

라. 「화장품법」 제8조에 따른 안전기준에 맞는 화장품을 이용하여 사용감 또는 만족도 등을 조사하는 연구

2. 연구대상자등을 직접 대면하더라도 연구대상자등이 특정되지 않고 「개인정보 보호법」 제23조에 따른 민감정보를 수집하거나 기록하지 않는 연구

3. 연구대상자등에 대한 기존의 자료나 문서를 이용하는 연구

② 제1항에도 불구하고 제1항제1호 및 제2호의 연구 중 「의약품 등의 안전에 관한 규칙」 별표 4 제2호더목에 따른 취약한 환경에 있는 시험대상자 제2호더목에 따른 취약한 환경에 있는 피험자(Vulnerable Subjects)를 대상으로 하는 연구는 기관위원회의 심의를 받아야 한다.  <개정 2013.3.23.>

개인정보보호법에도 보면 여러번 반복해서 나오는데 18조를 보면 다음과 같다.

제18조(개인정보의 이용·제공 제한)

② 제1항에도 불구하고 개인정보처리자는 다음 각 호의 어느 하나에 해당하는 경우에는 정보주체 또는 제3자의 이익을 부당하게 침해할 우려가 있을 때를 제외하고는 개인정보를 목적 외의 용도로 이용하거나 이를 제3자에게 제공할 수 있다. 다만, 제5호부터 제9호까지의 경우는 공공기관의 경우로 한정한다.

1. 정보주체로부터 별도의 동의를 받은 경우

2. 다른 법률에 특별한 규정이 있는 경우

3. 정보주체 또는 그 법정대리인이 의사표시를 할 수 없는 상태에 있거나 주소불명 등으로 사전 동의를 받을 수 없는 경우로서 명백히 정보주체 또는 제3자의 급박한 생명, 신체, 재산의 이익을 위하여 필요하다고 인정되는 경우

4. 통계작성 및 학술연구 등의 목적을 위하여 필요한 경우로서 특정 개인을 알아볼 수 없는 형태로 개인정보를 제공하는 경우

5. 개인정보를 목적 외의 용도로 이용하거나 이를 제3자에게 제공하지 아니하면 다른 법률에서 정하는 소관 업무를 수행할 수 없는 경우로서 보호위원회의 심의·의결을 거친 경우

6. 조약, 그 밖의 국제협정의 이행을 위하여 외국정부 또는 국제기구에 제공하기 위하여 필요한 경우

7. 범죄의 수사와 공소의 제기 및 유지를 위하여 필요한 경우

8. 법원의 재판업무 수행을 위하여 필요한 경우

9. 형(刑) 및 감호, 보호처분의 집행을 위하여 필요한 경우

2항 4에 보면 “통계작성 및 학술연구 등의 목적을 위하여 필요한 경우로서 특정 개인을 알아볼 수 없는 형태”라고 익명화가 설명되어 있다.

결론적으로 헬스케어 빅데이터를 하면서 개인정보를 활용하고 싶다면

  1. 개인의 동의 획득
  2. 익명화

이 두 가지 방법 밖에 없다. 개인정보보호법에 나오는 다른 예외조항들이 해당될리는 없으니 말이다.

하지만, 빅데이터라고 한다면 환자로부터 명시적인 서명동의서를 받는다는 것이 거의 불가능하다. 결국 “익명화”가 유일한 대안이 되는 것이다.

익명화가 법률에 명시된 경우는 생명윤리 및 안전에 관한 법률이 유일한 것으로 알고 있는데

제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다.

19. “익명화”(匿名化)란 개인식별정보를 영구적으로 삭제하거나, 개인식별정보의 전부 또는 일부를 해당 기관의 고유식별기호로 대체하는 것을 말한다.

라고 정의되어 있다.

이 정의가 조금 논란이 있는 정의인데.. “해당 기관의 고유식별기호로 대체”라는 설명때문이다. HIPAA에 의하면 해당 기관의 고유식별기호도 PHI이다. 오해하기 쉬운 항목인데 “병원의 환자번호로 대체하면 되는 것 아니냐.. 병리과의 경우 병리번호를 쓰면 되지 않느냐..” 라고 생각하기 제일 좋다. 저 항목은 수정이 되어야 할 것으로 보인다. (하지만 아무도 관심이 없다. -_-)

저렇게 정의된 이유는 생명윤리 및 안전에 관한 법률이 인체유래물을 다루는 법안이기 때문이다. 이와 관련된 상세한 설명은 기관생명윤리위원회 정보포털 인체유래물은행관련 개인정보보호 및 익명화 부분에 잘 나와 있으니 참고하기 바란다. (그나마 가이드라인 중에서 제일 상세하면서 합리적이다. 다만 인체유래물을 기준으로 하기 때문에 좀 한계가 있다.)

해당 지침에 보면

직접적 개인식별정보는

  •  이름, 주민등록번호, 운전면허증번호, 은행계좌번호, 전자메일주소
  •  의무기록번호 또는 환자등록번호, 각종 자격증번호, 학번, 차량번호
  •  주소, 전화번호, 팩스번호, URLs, IP 번호(경우에 따라)
  •  기타 특정 개인을 식별할 수 있는 가능한 모든 기호들

잠재적인 개인식별정보는

  • 해당 개인의 친척, 고용주, 또는 가족의 성명
  • 특별하고 고유한 신원 확인적 특징
  • 희귀병이나 희귀 치료 또는 장애
  • 지역 거주민수가 작은 지역의 우편번호
  • 희귀한 직업이나 근무 장소

이라고 정의되어 있으니 참고할 만하다. (그나마 의료정보와 관련된 개인건강식별정보를 정의한 유일한 사례이다. 이전 글로 옮겨야 하나 귀찮아서 그냥 여기다  씀~~)

해당 지침은 주로 미국 National Bioethics Advisory Commission에서 2001년에 발표한 “Ethical and Policy Issues in Research Involving Human Participants“를 기준으로 한 것으로 알고 있다.

그림1

해당 문서에 의하면 익명화는 3단계로 구분된다.

  • Unidentified or anonymous: Collected from individuals who were not identified at the time of collection (수집시 부터 개인식별정보를 수집하지 않는 것)
  • Unlinked or anonymized: Although identifiers were available when the data were collected or stored, at some point, the identifiers were unlinked (수집시에는 개인식별정보가 수집되나, 그 이후 제거된 경우)
  • Coded: Considered identifiable, even though they do not include any identifying information (개인식별정보가 코드화된 경우)

그래서 국내 생명윤리 및 안전에 관한 법률을 보면 코드화가 포함된 것으로 판단된다. 위의 정의는 인체유래물 대상 연구에는 충분할 지 몰라도, 의료정보 (healthcare data)를 취급하는 것에는 적절하지 못한 정의가 많다. (ex. coded.. 가 익명화가 된 것인지는)

Personal Identifiable Information를 익명화하는 것에 대한 명확한 정의는 ISO/TS 25237 Health informatics – Pseudonymization에서 볼 수 있다. (ISO 표준문서는 유료이니.. 돈 주고 구입하시길. 이 문건은 KS표준으로 번역이 되어 있기도 하다. 역시나 유료다.)

그림2

한글로는 익명화… 라고 이야기 하지만, 영어로 표현하면 모두 3가지의 서로 다른 익명화가 있다.

  1. De-identificatoin
  2. Anonymization
  3. Pseudonymization

De-identification이 가장 일반적인 용어로 개인과 관련된 정보를 제거하는 과정을 통칭한다 (그래서, 난 논문에서는 항상 de-identification이라고 한다.).

ISO 25237에서도 de-identification과 anonymization을 명확히 구분하지는 않는데, IHE (Integrating the Healthcare Enterprise) 에서 2014년에 발간한 IHE IT Infrastructure Handbook: De-identification에서 명확히 구분하여 설명하고 있다.  IHE Handbook에 의하면 de-identification 방법으로 anonymization과 pseudonymizatoin이 있다.

Anonymization은 보다 엄밀히 말해서 one-way de-identification 방법을 의미한다. 즉, 익명화 이후 개인정보를 복원할 수 없게 된다.

Pseudonymizatoin(가명화)은 개인식별정보를 제거하고, 임의의 코드나 번호(Pseudonym; 가명)를 부여한 것을 의미한다.

보다 상세한 설명은 IHE Handbook을 참고하시길.

그림3

 

 

그런데, 이런 이야기를 하면 꼭 암호화를 언급하는 사람이 있다. 분명히 말해 두지만

“암호화는 익명화의 방법이 아니다!”

암호화는 정보 유출이 발생할 경우 유출된 정보를 보호하기 위한 방법이지, 개인식별정보를 제거하기 위한 방법이 아니다. 암호화를 익명화의 보조도구로 사용할 수는 있으나, 익명화의 방법으로 암호화를 하는 것은 맞지 않는 이야기이다.

 

익명화의 정의는 여기까지 보고, 그럼 익명화의 방법 및 기준에 대해서 살펴보자. 어느정도 되어야지 익명화가 되었다고 볼 것이냐… 라는 것이 가장 핵심적인 사항일 것이다.

“일반적인 통념과 ISO 25237에 의하면 20,000명 이상의 사람을 대상으로 하는 정보는 익명화가 되었다고 판단한다.”

미국 HIPAA 기준도 동일하다.

그래서인지 희귀질환의 기준도 대부분 2만명 기준이다 (우연의 일치인지.. 의도한 것인지는.. 아는 분 있으시면 알려주시길..). 주소를 기준으로 보면 읍/면/동 이하 상세 주소를 제거하면 된다. 즉, 시/군/구까지의 주소는 익명화된 주소인 것이다. 미국 기준으로 우편번호 앞3자리 였는데.. 우리나라도 미국처럼 우편번호 5자리로 바꼈으니 동일하지 않을까 한다.

그럼 어떻게 평가할 것이냐.. 라는 문제가 남아 있는데, 이에 대한 상세한 가이드라인은 다행이도 국내외에서 여러 문서가 나와 있다.

그 중에서도 국제 표준에 준하는 문서들로는 지금까지 설명한 ISO 25237, IHE de-identification handbook외에 미국 NIST (National Institute of Standards ad Technologies)가 2015년에 발표한 NISTIR 8053: De-identification of Personal Information 등이 있다. 다만 NISTIR 8053은 의료정보에 한정하지 않은 일반적인 문서라는 점은 염두에 두어야 한다.

그림4

그리고, 가장 유명하고 친절한 미국의 HIPAA de-identification guideline이 있다. 이건 법률이니 표준보다 더 강력한 문건이다. 2012년에 발표되었고 가장 practical한 가이드라인이며, 개인적으로 익명화와 관련해서 가장 좋아하는 문서이다. 너무나도 독자에게 친절하게 설명되어 있다.

그림5

HIPAA 익명화 가이드라인에 의하면 익명화의 대상은 HIPAA 18 PHI 이다.그림1

익명화 방법은 Safe harbor method와 Expert determination method가 있다.

그림6

  • Safe harbor 18개의 PHI를 100% 완벽하게 지우는 방법 (안전한 항구)이고,
  • Expert determination 18개의 PHI를 expert가 통계적/과학적 기법으로 최대한 제거하는 방법이다.

생각해 보면 현실적으로 safe harbor는 만족될 수 없는 방법이다. 어떻게 100% 완벽하게 제거할 수 있겠는가? 그래서, 대안으로 나온 것이 expert determination이다. 이 때 몇가지 질문이 자연스럽게 따라 나오는데.. 이에 대한 해답도 가이드라인에 아주 명쾌히 설명되어 있다. (우리나라 가이드라인에 대한 불만이 이거다. 모호한 설명과 모호한 기준..)

  • Have expert determination been applied outside of the health field?

    • YES
  • Who is an “expert?”

    • There is no specific professional degree or certification program
  • What is an acceptable level of identification risk for an expert determination?

    • There is no explicit numerical level of identification risk. An expert will define an acceptable “very small” risk.

Expert는 누구인가? 아무나 될 수 있다. (아산병원의 경우는 불행이도 나… -_-; 사고 터지면 철컹철컹하면 된다.)

적절한 익명화 수준은 무엇인가? 알아서 판단하면 된다. 결국 기관이 알아서 책임지고 사고터지면 니들이 책임지면 된다는 것이다. 국내법과의 너무나도 큰 차이..

그럼 국내 가이드라인은 어떨까? 다행인지 불행인지 여러 가이드라인들이 나와 있다. (역시 빅데이터가 대세는 대세?) 방송통신위원회, 빅데이터 개인정보보호 가이드라인 (2014년 12월) , 미래부, NIA, 빅데이터전략센터에서 작성한 빅데이터를 활용을 위한 개인정보 비식별화 기술 활용 안내서 , 행정자치부, NIA에서 발표한 개인정보 비식별화에 대한 적정성 자율평가 안내서 등이 있다. 전부 2014년 12월부터 2015년에 발표한 최근 자료들이다.

방통위 가이드라인은 정말 선언적인 문구 밖에 없어서, HIPAA 가이드라인과 너무나도 비교가 되는 수준이다. 특히나 해당 가이드라인에 보면

“제7조(민감정보 생성의 금지) 특정한 개인의 사상/신념, 노동조합/정당의 가입/탈퇴, 정치적 견해, 건강, 성생활 등에 관한 정보, 그 밖에 이용자의 사생활을 침해할 우려가 있는 정보의 생성을 목적으로 공개된 개인정보 등을 수집/저장/조합/분석 등 처리하여서는 아니 된다. 다만 이용자의 사전 동의를 받거나 법률에 따라 허용된 경우에는 그러하지 아니하다.”

라고 기술되어 있다. 그냥 개인정보보호법 copy&paste다 (왜 만들었는지..). Healthcare big data는 하지 말라는 이야기로 이해하면 될런지… 그런데, 재미있게도 비식별화 기술 활용 안내서에는 의료 분야 사례가 나와 있다. 다만, 의료 분야 적용 사례는 대부분 내가 2013년에 수행한 2013년도 빅데이터 시범과제에서 발표한 내용들이다. 즉, 아산병원 사례라는 것이다…. (깨알같은 자랑도 좀..)

이런 일련의 가이드라인들이 발표되고 있지만, 가장 기본적인 WHAT(개인건강식별정보 혹은 보호되어야 하는 건강정보)이 정의가 안 되어 있는데, HOW(익명화 방법, 평가 기준 등; 그나마도 충분하지 못하지만)만 정의하면 무엇하는가? 그리고, 해당 가이드라인들은 개인정보 전반에 관한 것이지 의료정보의 특수성을 고려하지 못하고 있다.

예를 들면, 의료정보의 경우 타 분야에서 많이 사용되는 익명화 기법들인 총계처리(데이터의 총합 값을 보임으로서 개별 데이터의 값을 보여주지 않도록 하는 것), 데이터 삭제 (개인식별에 중요한 값을 삭제하는 것), 범주화(데이터의 값을 범주의 값으로 변환하여 명확한 값을 감추는 것) 등을 하기 어렵다. 환자 데이터는  환자 개별의 raw data가 필요하기 때문이다. 따라서, 쓸 수 있는 기법들은 기껏해야 데이터 마스킹(개인식별자가 보이지 않도록 처리하는 것), 가명처리 (개인식병정보를 다른 값으로 대체하는 것), 범주화(나이, 주소 등의 일부 데이터만 가능) 정도이다. 이런 특수성을 고려하지 않으면 healthcare big data 연구를 위한 익명화 기법은 멀고도 먼 길이다..

또 몇가지 강조하고 싶은 부분은

  1. Honest broker의 역할
  2. 익명화에 대한 주기적인 validation 

이다.

Honest broker의 역할은 생명윤리 및 안전에 관한 법률에 “개인정보 관리 및 보안을 담당하는 책임자”라고 명시되어 있다.

제44조(인체유래물은행의 준수사항)

④ 인체유래물은행의 장은 보건복지부령으로 정하는 바에 따라 인체유래물등의 익명화 방안이 포함된 개인정보 보호 지침을 마련하고, 개인정보 관리 및 보안을 담당하는 책임자를 지정하여야 한다.

좀 더 상세한 역할과 책임은 기관생명윤리위원회 정보포털 인체유래물은행관련 개인정보보호 및 익명화 부분을 참고로 하기 바란다. 요약하자면, 의학 연구의 경우 익명화된 형태로 연구를 진행하더라도 사용자의 동의를 획득하여 개인식별정보를 사용해야 하는 경우가 종종 생기게 된다. 예를 들어, 기관 IRB에서 익명화된 형태로 연구를 승인받아 진행하다가, 해당 대상군에게 전향적 임상시험을 수행하는 경우 등이 있을 수 있을 것이다. 그럼 익명화가 된 정보를 재식별해야 하는데, 이 때 Honest broker가 등장한다. 해당 역할을 수행하는 사람은 필요한 경우 재식별화(Re-identification)과정을 통해 개인식별정보를 획득해서 연구자에게 전달해 주어야 하는 것이다.

또한, honest broker의 또다른 중요한 역할은 익명화된 데이터에 대한 주기적인 validation이다. 개인정보 비식별화에 대한 적정성 자율평가 안내서에잘 설명되어 있는데, 개인일 수도 있고, 협의체일 수도 있다.

그림3

위의 그림에 있는 것처럼 주기적으로 익명화 정도를 평가하고, 결과에 따라 비식별화 과정을 반복하여야 한다. 이는 HIPAA에서 말하는 Expert determination method에서도 동일하게 강조하고 있다. 안내서에는 평가위원회를 구성하도록 되어 있고 절차는 상세 절차는 다음과 같다.

  • 평가위원회 구성
    • 개인정보처리자의 개인정보보호책임자가 지정하는 3인 이상의 평가위원으로 구성
    • 평가위원의 과반수 이상은 외부의 전문가로 지정하고, 업무영역 전문가 1인, 개인정보 비식별화 전문가 1인, 법률전문가 1인은 필수적으로 포함하여 구성
  • 평가수행
    • 개인정보처리자에서 작성한 ‘기초자료’와 ‘세부 평가 방법’을 기반으로 평가를 수행하고 ‘적정’ 또는 ‘부적정’의견 제시
  • 추가 비식별화 조치
    • 평가위원회의 의견에 기초하여 평가 대상 데이터에 대해 개인식별요소 제거 조치 등을 추가적으로 수행

아산병원의 경우 IRB를 통해 익명화 정도를 매년 검증을 받도록 진행하고 있다.

마지막으로, 뭔가 법률도 복잡하고 귀찮아 보인다면.. 그냥 개인의 동의 받으면 된다. 받을 수만 있다면..

“다만 내가 어떤 연구를 위해 당신의 어떤 정보를 수집할 것이고, 수집 기간은 얼마 동안이며, 수집 후 보관과 처리는 어떻게 할 것이고, 연구가 끝난 후 수집된 정보는 어떤 절차를 통해 폐기할 것이다.. 라고 아주 상세하게 대상자에게 설명하고 동의(written consent)를 받아야 한다.”

이게 더 귀찮고 복잡하기 떄문에 익명화를 하는 것이다~.

이미 내용이 많이 길어져서, 실제 적용 사례는 다음 글에서 정리해 보고자 한다 (언제 쓸지는 모르겠지만).

 

 

Healthcare data 익명화 (2): 익명화란?”에 대한 답글 1개

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중