고학수 개인정보보호위원회 위원장이 23일 오전 서울 중구 더 플라자 호텔에서 열린 '인공지능과 데이터 거버넌스 국제 컨퍼런스'에서 개회사를 하고 있다. (개인정보위 제공) 2023.5.23/뉴스1
고학수 개인정보보호위원회 위원장이 23일 오전 서울 중구 더 플라자 호텔에서 열린 '인공지능과 데이터 거버넌스 국제 컨퍼런스'에서 개회사를 하고 있다. (개인정보위 제공) 2023.5.23/뉴스1


(서울=뉴스1) 이기림 기자 = 개인정보보호위원회는 합성데이터를 안전하게 생성·활용할 수 있도록 돕는 5종의 '합성데이터 생성 참조모델'을 공개한다고 30일 밝혔다.


합성데이터는 실제 데이터와 통계적 특성이 유사해 실제 데이터 분석 결과와 유사한 결과를 얻을 수 있도록 새롭게 생성해낸 가상의 데이터를 말한다. 적절하게 생성된 경우 개인정보에 대해 요구되는 법적 제약 없이 활용 가능하고, 개인정보 침해 우려가 있어도 안전하게 활용할 수 있다는 강점이 있다.

개보위는 연구용역을 통해 '합성데이터 생성 참조모델'을 마련했다. 해당 모델에는 구강 이미지, 안전모 착용 이미지, 혈당 측정정보 등 5가지 종류의 합성데이터셋과 함께 데이터 생성 절차 및 과정에 대한 상세한 설명이 포함돼 있다.


개보위는 합성데이터를 활용하려는 기업·연구기관 수요를 조사한 뒤 유용한 데이터를 생성했다. 생성과정에서는 각 분야 전문가로 구성된 연구반 검토, 외부전문가의 적정성 심의 등을 거쳤다.

생성된 합성데이터는 합성데이터와 원본데이터가 얼마나 유사한지, 동일한 목표를 달성할 수 있는지 등을 검토하는 '유용성 검증'과 합성데이터를 통해 원본데이터 내 개인이 식별·추론될 가능성이 있는지 등을 검토하는 '안전성 검증'을 거쳤다.


개보위는 "합성데이터는 실제 데이터의 유용성을 최대한 유지하면서도 원본데이터에 포함된 개인이 식별되지 않도록 생성하는 것이 핵심"이라며 "상충 관계에 있는 유용성 검증과 안전성 검증을 적절히 수행하면서 균형점을 찾는 것이 중요하다"고 밝혔다.

연구진은 이런 목표를 달성하기 위해 목표한 유용성·안전성 수준이 충족될 때까지 데이터를 재생성, 추가처리, 재검증하는 과정을 거쳤다.


5종의 합성데이터는 관련 분야의 전문가를 통해 높은 수준의 안전성이 검증된 만큼, 6월 3일부터 '가명정보 지원플랫폼'을 통해 공개된다. 합성데이터 활용을 원하는 기업이나 연구자는 누구나 신청할 수 있고 최소한의 확인 절차를 거쳐 제공될 예정이다.

고학수 개인정보위원장은 "'합성데이터 생성 참조모델'은 데이터 경제 시대의 개인정보 침해 우려를 없애면서도 데이터를 적극적으로 활용하도록 해 관련 데이터 산업 생태계의 발전에 크게 기여할 것으로 기대된다"며 "본격화하는 데이터 경제 시대에 국민 삶의 질을 제고할 수 있도록 개인정보의 안전한 활용을 위해 적극 노력하겠다"고 밝혔다.