The GDPR and genomic data

표준 시리즈는 계속 뒤로 밀리고 있지만, 시기 상 이 내용을 소개하는 게 더 필요할 듯 해서, 올 5월에 영국 PHG Foundation에서 발표한 The GDPR and genomic data (executive summary, full report)를 소개한다.

[204 page. 읽고 정리하는 거 힘들다..]

내 블로그를 자주 본 사람이라면 알겠지만 내가 연구 데이터 공유와 관련해서 주로 인용하는 자료를 발간하는 곳이다. 관심있으면 꼭 자주 확인해 보길.. (이런 용도로는 Twitter가 짱이다. SNS는 인생의 낭비라는 퍼거슨 옹.. 도구는 쓰기 나름..)

올해 5월에 발간되고, 난 8월에 읽었는데.. 이제야 정리를 한다.. (이것도 개보법 가이드라인 공개이후, 관련 세미나 발표가 없다면.. 안 했을지도.. 왜냐면 지금 블로그에 쓰려고 keep해 둔 주제가 꽤 많거든)

우리나라가 아닌 영국이라 GDPR기반으로 영국의 환경을 주로 이야기한 보고서이지만.. GDPR가지고 아무말 대잔치가 벌어지는 (특히 연구와 관련해서는.. 연구 외 내용은 어차피 난 잘 알지도 못하고..) 한국의 특수성(?)에서는 꼭 읽어봐야 할 꺼라고 본다.

여러 내용이 있는데.. 그냥 리포트의 순서에 따라서 (그리고 200 page가 넘는 보고서니 의역, 축약 많음)…


이 보고서에서 GDPR과 영국 DPA 관련해서 집중한 5가지 사항은 다음과 같다.

  • Uncertainty in determining when the GDPR applies to collaborators in genomics initiatives, in particular when professionals may become ‘joint controllers’ and when those outside the EU must comply with the GDPR (chapter 3);
  • Uncertainty in determining when genetic, genomic and associated health data are ‘personal data’ governed by the GDPR and whether data that have been de-identified (e.g. through pseudonymisation) remain personal data (chapter 4);
  • Challenges meeting the requirement for a lawful basis for processing personal data and specific conditions for processing ‘special category’ (e.g. health or genetic) data (chapter 5);
  • Challenges fulfilling data subject rights and meeting obligations under the GDPR and DPA 2018 (chapter 6) and;
  • Challenges making data accessible to others or data sharing both within the EU/EEA and to ‘third countries’ (chapter 7)

그냥 그렇다고.. 어차피 뒤에서 설명할 꺼라…

When and where does the GDPR apply?

  • 유전체 연구자들은 GDPR의 적용을 받을 수 있음
  • 다만, 유전체 연구의 경우 아직까지 territory와 관련된 부분은 불분명한 점이 많음.
  • 즉 유전체 관련 국제협력연구(non-EU country와의)에서 아직 모호한 부분이 있음.

현재 유전체의 경우 국제협력연구가 일상적인 상황에서 이 부분은 빨리 해결되어야 할 것으로 보인다..

When are genetic or genomic data ‘personal data’?

  • 모호함. 보고서의 표현을 빌리면 “our research identified uncertainty and disagreement whether genetic/genomic data and associated health data fall within the scope of the GDPR”

(이게 우리나라 해석과 다른 부분일 듯. 아직 개인정보라고 하기 힘들다는 입장. 물론 이게 법적 해석이 아니라는 한계는 있고)

모호하다고 판단하는 이유는
“An important requirement for ‘personal data’ is that information must ‘relate to’ an individual.”
인데
“In many cases the content of the information will be clearly ‘about’ an individual, for example medical genetic test results are clearly about the person tested.”

About에 대해서 서로 다른 견해로 논의가 있음.. (자세한 설명은 보고서를 보길. 결국 의견 차이..)

근데 영국도 법원에서 유전정보가 개인 식별성이 있다고 판단한 판계가 있다고..
이 판결이 잘못되었다고 주장하면서, individuation과 identification의 차이도 구분하지 않고 있다고 짜증냄 (그냥 저자의 행간을 내 맘대로 해석하면.. 근데 나라도 짜증낼 것 같음).

솔직히 유전 연구 처럼 아주 전문적인 분야인 경우.. 게다가 괜히 DNA라서 AI처럼 아무 말 대잔치가 심하게 벌어지면서 hot한 분야인 경우.. 해당 분야 전문가와 일반인(판사라도 이 분야에 대해서는 일반인일 뿐.. 솔직히 나도 이제는 따라가기 버거운데.. 상세 내용은 이미 포기했고, keywords 만 파악하기도 빡셈) 사이에 큰 견해 차이가..

Identification과 individuation의 차이점에 대해서는 이미 나도 글(결국 PHG 리포트 내용이었음)을 썼고.. 리포트에 상세히 설명이 있음(내가 정리한 리포트의 요약..).

또 내 맘대로 의역하자면.. DNA에 대한 헛된 환상을 버리라는 거.
기회가 될 때 마다 말하는 건데.. DNA 서열만 알고 있다고 해서 그 사람이 누군지 파악할 수 없다.. 해당 DNA서열과 개인정보가 매칭된 별도의 DB가 있어야만 하지.. 그런 DB를 (개인정보보호법의 표현을 빌리자면) “다른 정보의 입수 가능성 등 개인을 알아보는 데 소요되는 시간, 비용, 기술 등을 합리적으로 고려”할 때 합리적인 시간, 비용, 기술로 일반인이 입수할 수 있냐고… 응?

그리고, 마음에 드는 그림 하나..

[유전 정보라고 모두다 개인을 식별할 수 있는 건 아니다.. 응?]

또.. 이슈는 유전정보와 관련해서는 시간이 지날수록 (연구가 계속될수록) 건강과 관련된 새로운 내용들을 파악해 나가고 있어서.. 목적이 달성하면 파기해야 한다는 개인정보 보관의 기본원칙을 따르는 게 너무 아쉽다고 함 (상당한 의역 포함.. 원문은 “Finally, genomic data are special in that our understanding improves with time. This means that there are significant advantages to the long-term storage or preservation of genomic data (and related medical data) to both enable research that advances scientific knowledge and to allow new insights to be made about an individual’s health state or predisposition to disease. This characteristic of genomic information potentially conflicts with the obligations and principles discussed in chapter 2 to minimise, anonymise or even delete data as far as possible to protect the rights and interests of individuals.”)

어쨋든 핵심 주장은

  • 유전정보 (genetic or genomic data)가 개인정보인지는 판단하기 아주 어렵고, 이건 context에 따라 바뀜.
  • 따라서, 연구를 위하여 필요한 가명처리 방법과 기준을 연구자들이 개발해야만 함.

Ensuring lawful processing of genomic data for healthcare and research

  • 동의서가 만능은 아님.
  • 연구를 위해서는 아무래도 포괄적 동의가 필요함
  • 국제협력연구를 위해서는 GDPR를 준수하는 방안 마련 필요

필요하나, 딱히 당장 현실적인 방안이 없는 답답함이 느껴짐..

게다가 이동권을 고려하면.. 몇 GB되는 걸 어떻게 이동시켜줄지도 고민이라는 내용도..

Fulfilling data subjects’ rights and meeting obligations under the GDPR

  • 익명화(anonymisation)을 비롯한 개인의 권리 향상을 위한 방안을 고민해야 함

역시나.. 아직 Ongoing..

Challenges for genomic data sharing

  • 현재 규제는 유전체 연구를 위해서는 너무 높음 (원문. “consent for the processing of data under the GDPR in healthcare and research settings is set at a high bar and may be difficult to meet” )
  • 따라서, 유전체 국제 협력 연구를 위해서 적절한 방안을 모색해야 함

이 리포트에서 가장 관심있었던 부분… 근데.. 답은… 역시나.. 노답인 상황

법적인 걸 다루다 보니 국제협력을 위한 데이터를 “transfer”하는 경우.. 이 transfer의 법적 정의에 대해서 길게 설명.. (힘들다.. )

그리고 EMBL (European Molecular Biology Laboratory)같은 연구소의 법적 지위에 대한 논란도.. EU의 조직인데도 힘들다.. 그럼 non-EU는? 더 복잡..

The reduction and mitigation of potential deleterious impacts

  • 그냥 잘하자.. 특별한 내용 없음

각종 기술들 (k-anonymity, differential privacy, homomorphic encryption 등)이야기하고.. 실제 API를 만들거나 하는 곳(DataSHIELD, GA4GH 등)도 언급

그런데, “the ‘broken promises’ or failures of de-identification in the face of technological developments”라는 문구가 있음. 나도 인정. 비식별화(한국의 법적 용어로는 가명처리)가 절대 대안은 아님. (그래서 나도 가명화 vs. 동의서: 이젠 동의에 대해서 이야기하자. 등등에 Privacy-Preserving Data Mining 이야기를 하는 거.. 아 Federated Learning 논문은 곧 출판 예정. 아마 11월쯤? FL관련해서도 논문 나오면 논문 내용 소개 겸 정리할 생각임. )


200 page가 넘고.. 완전 법률적인 내용이 대부분이긴 하나, 이쪽에 관심있는 의료법 전공자나 생명윤리법 연구자라면.. 꼭 읽어 보길 바람. (그리고 내가 귀찮아서 너무 날림으로 요약했고)

특히 국가바이오빅데이터구축사업(나도 이것때문에 이 글을 정리한 거임 -_-. 솔직히 읽고 그냥 넘어가려고 했음..)에서 관련 이슈들이 등장하는데.. 관련된 분들 꼭 원문을 읽어보기 바람. 이 글은 당연히 내 생각이니..

근데 그냥 법은 나 몰겠고, 유전연구 하고 싶어요.. 싶으면 GA4GH만 잘 보고 있으면 됨. 이런 법적인 문제 다 고려해서 전세계연구자들이 사용할 수 있는 정책 및 표준, 해당 표준에 기반한 API까지 all-in-one으로 제공해 준다.. (난 GA4GH와의 1도 상관없음. 심지어 annual meeting도 한번도 간적 없음. 그냥 부러워서.. 그리고 한국의 우수한 연구자들이 너무 참여 안해서..)


ps. 마지막 보너스로 Facebook이 GDPR을 위반했다고 소송을 건 Shrems 소송과 관련해서 유전연구의 영향을 분석한 글도 있음. 역시나 PHG Foundation 글 (찬영하라~. 근데 내가 왜 이딴 글을 보는지는 .. )

Impact of Schrems II on sharing genomic data

짧은데.. 시간 없는 사람들을 위한 한 줄 요약은

이 판결대로 확정되면 유전연구 “망!”
(원문은 “Schrems II is a blow to many who wish to transfer personal data between the EU and US, including the sharing of genomic data”)

댓글 남기기