All of Us 현재 상황

올 8월에 “The All of Us Resaerch Program: Data quality, utility, and diversity“라는 제목으로 미국 All of Us 프로젝트의 중간결과가 발표됨. (PDF도 무료로 볼 수 있으니 많이들 보시길. 특히 국바빅 준비하는 분들 두번 보시길)

이전에 관련해서 쓴 글도 관심있으면 참고를..

위 캡쳐화면에도 있지만

  • 315,000명의 데이터가 공개됨
  • 데모 프로젝트는 철저히 dataset의 검증용
  • 클라우드!

가 메인이다.

이 논문을 정리 이유는 정부가 다시 국가통합바이오빅데이터구축사업 예타를 준비하고 있기에, 관련분야 종사자로 할 말은 해야 겠기에..

우선 Hightlight만 봐도, 수집된 데이터를 공개하는 걸로 시작. (이게 왜 highlight 1번이겠냐고… 응?)

진짜 데이터 좀 공개하자.. 국바빅도 데이터 공개가지고 뭐라뭐라 말이 많은데.. 공개 안 할꺼면 하지마. 세금 아까와. 외국사람들이 연구하는 걸로 뭐라고 뭐라고 따지는 양반들도 있는데, 전세계 연구자가 대한민국 사람들을 위해서 연구를 하는데 뭐가 아까운건지? 그게 아까우면 니가 먼저 논문 쓰던가..

데모 프로젝트도 쓸데없이 새로운 Fidning을 위한 것이 아니라 데이터 검증을 위한 Replication study이다. 제발 검증 좀 하고 시작하자.. 니 논문 한편 더 쓰게 해 줄려고 세금 때려박는 거 아니니까..

클라우드..
언제까지 국가기관 혹은 공공기관의 내부 on-premise 시스템으로 구축할래.. 클라우드컴퓨팅 발전 및 이용자 보호에 관한 법률도 만들었잖아.. 니네들 내부 시스템 확장하고 숙원사업하라고 프로젝트 하는 거 아니거든.. 제발 글로벌 스탠다드로 가자..

이제 논문의 상세 내용..

Intro에 보면 딱 이렇게 나온다.

All of Us program has adopted a different infrastructure, described here, to ‘‘bring researchers to the data’’ in a cloudbased environment. This approach should both enhance data storage and security, as well as provide facile access to data and analysis tools to a broad range of researchers including those in computationally underdeveloped environments. 

Bring researchers to the data“이 얼마나 멋진 표현이냐… 맨날 구슬이 서말이라도 꿰어야 보배라면서.. 구슬만 모아..

보안도 클라우드가 내부 시스템보다 약하다고 생각하는 게 너무 웃겨.. 니들이 MS, Google, Amazon보다 보안 더 잘 할 자신있니?


클라우드는 Terra platform을 썼다고 하는데.. 잘 모르는 회사임. 뭐 기술력이 있으니 선정되었겠지만..
그런데 클라우드를 쓴다고 해서 그냥 쓰는 건 아니고.. 미국의 Federal Information Security Management Act (FISMA)을 준수해야 함. 당연히 이런 걸 필요함. 다만 FISMA에 대해서 정확히 잘 몰라서 자세한 평가는 할 수 없음.

그리고, P&S 이슈 그냥 막 주는 건 아니고, “passport model”이라는 개념을 도입했다. Passport model은 아래 개념이다.

‘‘passport model’’ that grants broad access to the non-human subjects research dataset that was approved by the program institutional review board instead of burdening researchers with completing the conventional project-by-project mode of review.

재미있는 개념이라 좀 더 자세히 정보를 찾으면 All of Us 홈페이지관련 문서에 있는데..
Data passport는 데이터 활용도를 높이기 위해서 제안한 개념으로 연구자가 해당 프로그램에 등록을 하고 요구하는 각종 규정을 준수하겠다고 서약한 후, 필요한 교육 프로그램을 이수한 이후에 제공받는 것인데.. passport를 받으면 접근권한이 상당히 넓게 주어진다. 즉, 특정 연구 주제로 접근 권한이 주어지는 게 아니라 passport가 있으면 원하는 연구를 할 수 있게 해주는 포괄적 승인의 개념이다. (실제로 따지고 보면 뭐 완전 자유는 아니고 까다로운 조건이 있긴 하겠지만 어쨋든..)
Passport와 관련해서 연구자는 정확 6단계를 pass해야 한다는데.. 1) registration 2) affiliation with an institution that has completed a Data Use and Registration Agreement, 3) identity verification via login.gov, 4) completion of ethics training, 5) attestation to a data use agreement. 6) Approval to use the dataset

그냥 말처럼 쉽지만은 않은 듯… (미국에서 연구하시는 분들에게 들어오면 꽤 시간이 걸리고 까다롭다고).
한국에서는 실제 각론은 잘 알기 어려우니.. 미국에 있는 분들 좀 정보를 .. (누구 생각나는 분 있는데.. 네. 당신입니다. ^^)

그리고, 또

The platform is designed to meet the FAIR principles of research—Findable, Accessible, Interoperable, and Reusable—developed to address concerns about the reuse of scholarly data on behalf of a diverse set of stakeholders representing academia, industry, funding agencies, and scholarly publishers.

FAIR. 제발 FAIR하자. FAIR가 뭔지 모르겠으면 지난 글 참고. 이제 입 아프다.

다른 중요한 포인트로 다른 유명 코호트들과 달리 (UK Biobank, Million Veterans Program 등을 예로 듬) 아주 다양한 데이터 소스들을 통합해야 한다는 거를 들고 있다. 그럴 수 밖에 없는 게.. EMR도 연계해야 해, 설문지도 수집해야 해, 검체도 모아야 해.. fitbit 데이터도 정리해야 해.. (국바빅이 이걸 거의 따라 하는데… ) 그러니 data interoperability에 초점을 두고 표준을 강조하는 거임.

다른 점에서 내가 주목하는 건 아주 천/천/히 가고 있다는 거.. 일단 논문의 내용만 집중해서 보면 그림 1처럼 pilot 시작하고 5년 (16 ~ 20) 동안 315,007명이라는 거다. 우리나라 같으면 이미 백만명 다 모았겠지? 데이터 질은 무시하고 일단 N수 채우기 급급했을테니..


근데 데이터가 활용되기 시작하면 급하게 N수만 채운 게 좋을까? 시간이 오래 걸리더라도 제대로 모은 게 좋을까? 정답은 누구나 다 알잖아? 빨리빨리 문화가 좋은 것만은 아니야..

Research Hub에 대한 간략한 설명도 있는데.. 이건 궁금하면 이전 글을 보시고…
요약하자면 “point and click”으로 UI 지원되는 cohort builder도 있고, Jupyter Notebook을 제공해서 python, R지원. Research Workbench는 Google Cloud 사용.


논문이 좀 길어서..(25 pages) 내가 관심있는 부분 위주로 요약했으니 꼭 원문 보시길.. 논문 중 상당 내용이 replication study 내용임. (난 크게 관심없어서 생략)

.



All of Us 현재 상황”에 대한 답글 2개

  1. 신수용 이사님 쓰신 글의 내용에 대부분 동의합니다. 그런데 All of Us 참여자의 데이터를 “공개”한다는 것은 어떤 의미이신가요? 미국 All of Us 프로젝트도 데이터에 접근하려면 연구자가 사전 승인을 받아야 하는 것으로 알았는데, 우리나라와 차이가 큰가요?

    좋아요

댓글 남기기