10 Misunderstandings Related to Anonymisation

제목 좋다.

AEPD (스페인어다.. 하나도 모른다. 영어로는 Spanish Data Protection Agency)와 EDPS (EUROPEAN DATA PROTECTION SUPERVISOR)가 공동으로 작성해서 21년 4월 27일에 발표한 아주 짧은 (7 pages) 문서다.

얼마나 짜증이 나면 이런 문서까지 발표하겠냐..
(익명화(anonymisation)과 관련되어서 아무 말 대잔치가 있는 건 만국공통인 듯. )

한국에서도 여전히 아무말 대잔치가 많아서 일단 이 문서가 소개하는 오해 10개를 간단히 소개하겠다.

일단 용어의 혼란을 없애기 위해서 문서에 나와 있는 표현을 한국말로 쓸 때

  • 가명화: pseudonymisation
  • 익명화: anonymisation
  • 재식별화: re-identification. 여기선 single out을 재식별화라고 간주

라고 하겠다. 가명처리는 한국 개보법에 있는 표현이고..

오해 1. 가명화는 익명화와 같다 (Pseudonymisation is the same as anonymisation)

가명화는 기술적으로 “additional information”을 가지고 원래 정보를 원복할 수 있도록 해 주는 방법이고, 익명화는 더 이상 개인을 알아볼 수 없도록 만드는 방법이다.

그래서 내가 아래에 있는 개인정보 보호법의 가명처리라는 표현을 진짜 싫어한다.

“가명처리”란 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가 정보가 없이는 특정 개인을 알아볼 수 없도록 처리하는 것을 말한다.

원래 pseudonymization은 기본적으로 원상복귀을 염두에 두는 기술이다. 근데 이걸 익명처리(de-identificaiton)이랑 섞어서 용어를 만들어 버리니.. 가뜩이나 다른 법적 용어 들도(대표적인 게 개인정보.. 이전 내 글을 찾아봐라.. ) 맘에 안드는데.. 더 이상하게 된다. 이걸 익숙하게 여긴다는 건.. 거기에 익숙해진 것일 뿐이다.

오해 2. 암호화는 익명화다. (Encryption is anonymisation)

소위 IT 전문가가 이런 소리.. 하면 정말 그렇게 생각하는지 물어보고.. 확인 후 진짜 그렇게 생각하면 전문가가 아니라고 판단한다.

암호화는 그냥 가명화의 방법일 뿐이다. (Encryption is not an anonymisation technique, but it can be a powerful pseudonymisation tool.)

생각해 봐라.. 복호화를 생각안하고 만드는 암호화가 있는지.. 복호화가 안되는 암호화? 그게 암호화냐? (대학원 수업 때 그런 프로그램을 만들어서 감점 당한 추억이 있는데 말이지..)

오해 3. 익명화는 항상 가능하다. (Anonymisation of data is always possible)

일단 익명화가 뭔지 정의부터 하자. 익명화라는 것도 특정한 threshold를 두고 위험도가 해당 threshold보다 낮으면 익명화되었다고 판단하는 거다. 즉, 해당 threshold를 만족시키는 게 불가능한 데이터도 있을 수 있다.

예를 들면, 익명화는 인구집단 기준으로 2만명 이상의 군집에 속하는 걸 가정하다. 그걸 만족 못하면.. 실패.

또한, 익명성은 context와 그 데이터를 사용하는 사람의 배경지식에 의존적이다. 즉, 흑백 논리가 아니라는 거다..

유명연예인과 일반인의 익명화가 같은 수준이라고 생각하는 건 아니겠지?
그리고 열혈팬과 일반인이 특정 연예인에 대해서 가지고 있는 정보가 다르니.. 당연히 다른 수준으로 해야겠지?
오해 3에 쓰긴 했는데.. 쭉 계속 참고해라.

오해 4. 한번 익명화되면 영원하다. (Anonymisation is forever.)

기술의 발전으로 인해 혹은 추가 데이터의 수집으로 인해 익명화 위험은 변경된다.. 계속 모니터링해야 한다.

오해 5. 익명화는 재식별화의 위험을 항상 0으로 만든다. (Anonymisation always reduces the probability of re-identification of a dataset to zero)

특정 threshold 이하(사람들이 합의하는)로 만드는 것이지.. 0이라는 것은 존재할 수 없다. 이건 환상 속의 그대이고.. 영구 기관 만들겠다는 거랑 똑같다. (근데 영구기관 만들었다고 주장하는 인간들이 항상 있으니 문제..)

오해 6. 익명화는 측정될 수 없는 이진 개념이다. (Anonymisation is a binary concept that cannot be measured)

쭉.. 말했지만 특정 기준 밑으로 가는 거라니까.. 그러니 측정 가능하다. 측정이 안되면 어떻게 판단하겠니?

유사한 내용이 반복되는 걸 봐서.. 이 문서 만든 사람들의 깊은 빡침이 느껴진다..

오해 7. 익명화는 완전 자동화될 수 있다. (Anonymisation can be fully automated)

그러면 얼마나 좋겠냐.. direct identifier는 가능하다. 그래야만 하고. direct identifier도 못 하면 그 S/W는 판매할 생각을 말아야지.. (다만 Free text에 있는 내용까지 고려하면 100%는 불가능)

근데 quasi identifier는 context에 따라 다르다. 컴퓨터 프로그램이 context를 인식하면서 결정해야 한다? AI에 대한 너무 큰 환상을 가지고 있는 듯 하다. 그런 거 기술적으로 불가능하다.
사람의 판단이 반드시 필요하다..
관련된 논문을 모 교수님과 작성했음.. (쓰긴 그 교수님이 다 썼고.. 난 숟가락만 얹었는데.. 계속 구천을 떠도는 중)

오해 8. 익명화는 데이터를 쓸 수 없게 만든다. (Anonymisation makes the data useless)

어떤 측면에서는 오해라기 보다.. 난 찬성하는 주장인데..


일단 기본적으로 익명화 과정도 데이터의 활용도를 고려하면서 만드는 과정이다.
만약 데이터의 활용 가치를 0으로 만드는 익명화라면.. 그 데이터는 버려야지. 그런 관점에서 저건 오해다.

하지만 익명화는 data의 가치를 raw data보다 낮추는 건 사실이다. 왜냐하면 가명화는 데이터를 왜곡하는 과정(누구인지 알아볼 수 없게 만드는 과정)이기 때문에…

그래서 가명화/익명화가 아닌 동의를 받자.. 혹은 기술적 대안을 찾자 (연합학습, 동형암호 등)고 주장하는 거다.. 근데 몇 년을 주장해도 아무도 안 해서.. 결국 내가 한다.

오해 9. 타 조직의 성공적인 익명화 방법을 따르면 우리도 성공할 수 있다 (Following an anonymisation process that others used successfully will lead our organisation to equivalent results)

세상이 그렇게 호락호락하겠냐.. (갑자기 왜 유키스의 만만하니.. 가 생각날까…)
모든 것은 진리의 케바케..
그냥 참고만 해라.

오해 10. 재식별 시도를 하려는 사람은 없다 (There is no risk and no interest in finding out to whom this data refers to)

뭐 문서에는 개인정보는 그 자체로 가치를 가지고 있기 때문에 항상 재식별을 하려는 시도가 있고, 밝혀질 경우 개인에게 큰 위험이 된다.. 라고 거창하게 적혀 있는데…

그냥 알기 쉽게

세상은 넓고 변태는 많다.



여기에 개인적인 의견을 하나 더 붙이자면

오해 11. 익명화가 동의보다 편한 방법이다.

그냥 동의 받는 게 더 편할 수 있다.

동의가 0순위. 동의가 진짜 현실적으로 어려울 때 가명처리해라.

왜냐하면 심지어 전향적 데이터 수집 연구에서도 갑자기 익명화 타령하고 있어서이다..
동의 받잖아..
인체유래물은행 기증 동의 받어! 그럼 다 해결돼!

진짜 나 이런 이야기 그만 하고 싶다..
다행이도 대학원생 1명이 이 분야를 공부 중이라.. 그 학생을 열심히 키워야 할 듯 하다.

10 Misunderstandings Related to Anonymisation”에 대한 답글 2개

  1. 좋은 내용의 글 잘 읽었습니다.

    다만 오해2의 설명글 중 ‘복호화가 안되는 암호화가 있나?’라는 것은…대부분 id/password에서 password 를 encryption할 때 복호화되지 않는 단방향 encryption 방법을 쓰는 것에 비추어 어패가 있다고 보는데요, 제가 잘못 이해한 것인지 추가 설명드려도 될까요?

    좋아요

댓글 남기기