71. 프라이버시 보호 모델: k-익명성, l-다양성, t-근접성의 개념과 차이점

개인정보·프라이버시

71. 프라이버시 보호 모델: k-익명성, l-다양성, t-근접성의 개념과 차이점

privacydo 2025. 12. 28. 09:00

데이터 시대에 개인정보를 활용하면서도 프라이버시를 지키기 위해 다양한 프라이버시 보호 모델이 고안되었습니다. 특히 k-익명성, l-다양성, t-근접성 모델은 관계형 데이터베이스에서 개인정보를 비식별화할 때 자주 언급되는 대표적인 개념들입니다12bme.tistory.comm.boannews.com. 이 글에서는 각 모델의 개념과 서로 어떤 문제를 보완하기 위해 등장했는지, 국내외 적용 사례, 기술적인 쟁점과 한계, 그리고 실무에서 고려해야 할 사항들을 정리해보겠습니다.

k-익명성: 연결공격을 막는 첫 단추

k-익명성(k-anonymity)은 공개 데이터에 대한 연결 공격(linkage attack)을 방어하기 위한 가장 기본적인 프라이버시 모델입니다m.boannews.com. 연결 공격이란, 비식별 처리된 데이터와 다른 공개 정보(예: 유권자 명부 등)를 준식별자(Quasi-Identifier)를 열쇠로 결합하여 개인을 식별해내는 기법입니다m.boannews.com. 예컨대 미국 매사추세츠주 사례에서는 주정부가 공개한 병원 기록을 유권자 명부와 결합하여 당시 주지사의 의료정보가 노출된 바 있습니다. 이처럼 이름이나 주민번호 같은 식별자를 제거했더라도, 나이, 성별, 거주지역 등 간접 식별 가능한 정보들이 다른 데이터와 합쳐지면 특정 개인을 알아낼 수 있습니다m.boannews.com.

k-익명성 모델에 따르면 각 개인의 레코드가 최소 k명 이상의 다른 사람과 동일한 준식별자 값을 공유해야 합니다m.boannews.com. 즉 비식별화된 데이터셋에서 동일한 속성값 조합을 가진 레코드가 적어도 k개 존재하도록 데이터를 처리하는 것입니다m.boannews.com. 이렇게 하면 공격자가 외부 정보와 결합하더라도 후보가 k명으로 늘어나 특정인을 정확히 지목하기 어려워집니다m.boannews.comm.boannews.com. 가령 k=4인 4-익명성을 만족시키도록, 어떤 나이대·지역 조합으로 묶인 그룹에 항상 4명의 레코드가 있게 일반화한다면, 공격자는 그 그룹 중 1/4 확률로만 목표 대상을 추정할 수 있게 됩니다m.boannews.com.

k-익명성은 2002년 라타냐 스위니 등의 연구로 정식 제안된 이후m.boannews.com, 개인정보 비식별 조치의 기본 요건으로 널리 알려졌습니다. 우리나라에서도 2016년 개인정보 비식별화 가이드라인에서 “동일한 값의 레코드가 적어도 k개 이상 존재하도록 데이터 구성”할 것을 명시하며 k-익명성을 비식별적정성 평가에 활용하도록 했습니다m.boannews.com. 현재까지도 데이터 제공 시 최소 3명 혹은 5명 이상 그룹화를 권고하는 등 k-익명성 개념이 실무 지침에 반영되고 있습니다.

그러나 k-익명성만으로는 충분하지 않을 때가 있습니다. 모든 레코드가 k명 그룹에 속하더라도, 만약 그 그룹 내 민감정보가 모두 동일하다면 (예: 병명이 전부 같다면) 특정인의 민감정보를 알아내는 동질성 공격이 가능합니다itwiki.kritwiki.kr. 또한 공격자가 “특정 질병은 남성에게만 발생한다”와 같은 배경지식이 있으면 그룹 내 성별만 보고도 병명을 유추할 수 있는 취약점도 남습니다itwiki.kritwiki.kr. 이러한 한계를 보완하기 위해 고안된 모델이 l-다양성입니다.

l-다양성: 민감정보의 다양성 확보

l-다양성(ℓ-diversity) 모델은 k-익명성을 만족하는 각 동질집합(equivalence class) 내에 적어도 ℓ개의 서로 다른 민감정보 값이 존재하도록 함으로써, 앞서 말한 동질성 공격과 배경지식 공격을 막고자 합니다itwiki.kritwiki.kr. 쉽게 말해, 동일한 준식별자 값을 가진 그룹에 속한 레코드들의 민감한 속성값(예: 질병명)이 모두 똑같지 않고 최소 ℓ가지로 다양하면, 공격자는 그 그룹에 속한 개인의 정확한 민감정보를 알아내기 어려워집니다12bme.tistory.comitwiki.kr.

예를 들어 앞서 k-익명성을 적용한 데이터에서, 어떤 그룹의 환자 4명이 모두 ‘위암’이라는 같은 질병이면 그 그룹은 민감정보 다양성 부족으로 취약합니다itwiki.kritwiki.kr. l-다양성은 이 문제를 해결하기 위해 그 그룹 내 질병이 ‘위암’, ‘전립선염’, ‘고혈압’처럼 최소 ℓ가지로 섞이도록 추가 비식별화를 수행합니다itwiki.kritwiki.kr. 만약 ℓ=3 다양성을 만족시켰다면, 이제 해당 그룹 환자의 질병은 3개 후보 중 하나가 되어 동질성 공격을 어렵게 만듭니다. 또한 앞선 사례에서 여성에게는 발생하지 않는 병으로 정보가 새나가는 문제도, 같은 그룹에 성별이 섞이고 질병도 다양해짐에 따라 완화됩니다itwiki.kr.

l-다양성은 2006년 마차나바일라 등이 제안한 모델로, k-익명성의 취약점을 보완한 중요한 진전이었습니다m.boannews.comm.boannews.com. 다만 이 역시 완벽한 해결책은 아니었습니다. 그룹 내 민감값이 여러 개라고 해도 그 값들이 매우 유사하거나 편향되어 있으면 개인정보 누출 위험이 여전히 존재합니다itwiki.kritwiki.kr. 이를테면 모두 위장 관련 질병들(위궤양, 위염 등)만 섞여 있다면 공격자는 “해당 그룹 사람들은 위 관련 질환을 갖고 있다”는 사실까지는 알아낼 수 있습니다itwiki.kritwiki.kr. 또 그룹 내 민감값들의 분포 비율을 보고도 유추 가능성이 있습니다. 이런 쏠림(skewness) 및 유사성(similarity) 공격을 방지하고자 제시된 것이 t-근접성입니다.

t-근접성: 전체 분포에 근접하게

t-근접성(t-closeness) 모델은 각 동질집합 내 민감정보의 분포가 전체 데이터셋의 민감정보 분포와 차이가 t 이하가 되도록 하는 프라이버시 기준입니다12bme.tistory.comitwiki.kr. 즉, 특정 그룹의 민감값 비율이 전체 평균적 분포와 너무 동떨어지지 않도록 만들어 특이점이 드러나지 않게 하는 것입니다itwiki.kritwiki.kr. t-근접성은 l-다양성이 남긴 약점(민감값 쏠림 및 유사성 문제)을 보완하기 위해 고안되었으며itwiki.kr, 지구 이동 거리(EMD) 등의 통계적 거리 측정으로 분포 차이를 계량화합니다12bme.tistory.com.

예를 들어 한 그룹 환자들의 병명이 ‘위궤양, 급성위염, 만성위염’처럼 모두 위(胃)와 관련된 질환이라면, 해당 그룹의 병명 분포는 전체 환자 집단의 병명 분포에 비해 특정 장기(위)로 편중된 특이점을 보입니다itwiki.kr. 마찬가지로 그들의 급여 수준 데이터도 전부 하위권이면, 소득 분포 면에서도 치우침이 생깁니다itwiki.kritwiki.kr. t-근접성을 적용하면 이런 편향을 줄이도록 그룹을 재구성합니다. 예컨데 민감정보가 ‘위궤양, 만성위염, 폐렴’으로 섞이고 급여도 상중하 범주가 골고루 섞이도록 그룹을 조정하면, 그 그룹의 질병 분포와 소득 분포가 전체와 유사한 수준(차이가 t 이하)으로 맞춰집니다itwiki.kritwiki.kr. 결과적으로 공격자는 해당 그룹만 보고는 특정인의 병이 위 관련일지 폐 관련일지, 소득이 높은 편인지 낮은 편인지 추론하기 훨씬 어려워집니다itwiki.kritwiki.kr.

t-근접성은 이처럼 가장 엄격한 프라이버시 보호 기준으로, 민감정보 분포 차이까지 통제함으로써 정보 노출 위험을 한층 줄입니다. 다만 t 값 설정을 너무 엄격하게 하면 데이터를 심하게 뒤섞어버려 분석 가치가 떨어질 수 있으므로, 적절한 균형점 찾는 것이 중요합니다. 일반적으로 t 값이 0에 가까울수록 (분포가 거의 동일해질수록) 프라이버시 보호는 강해지지만 데이터 유용성은 낮아지는 경향이 있습니다itwiki.kr.

적용 사례: 국내외 활용과 한계 사례

위 모델들은 주로 통계적 비식별화를 할 때 활용되어 왔습니다. 해외에서는 정부나 기업이 익명 데이터를 공개하려다 발생한 이슈들이 이러한 모델의 필요성과 한계를 잘 보여줍니다. 앞서 언급한 미국 주지사 의료기록 재식별 사건은 k-익명성 모델의 탄생에 직접적인 계기가 되었습니다. 또 AOL 검색어 유출 사건(2006)과 넷플릭스 프라이즈 데이터셋 재식별 사례(2007) 등은 초기에 익명 처리되었다고 믿었던 데이터가 사실은 개인 식별이 가능함을 드러냈습니다. 특히 Netflix가 영화 평점 데이터를 가명 처리해 공개했지만, 연구자들이 이를 IMDB 영화 리뷰 데이터와 대조해 일부 이용자를 성공적으로 찾아낸 일은 유명합니다. 연구에 따르면 고차원(high-dimensional) 데이터일수록 k-익명화와 같은 전통 기법이 효과가 떨어져, Netflix 같은 데이터셋에는 사실상 k-익명성이 무력화된다는 결과가 나오기도 했습니다cs.cornell.educs.cornell.edu. 이는 개개인의 영화 취향이나 구매 이력처럼 차원이 높은 데이터에서는 모든 레코드를 k명씩 묶는 것이 불가능에 가깝고, 배경지식이 조금만 있어도 특정인을 좁혀낼 수 있기 때문입니다.

국내에서도 개인정보 비식별 조치가 활발히 논의되면서 k-익명성 등을 활용한 사례와 논쟁이 있었습니다. 2014년에는 국내 한 민간기관이 처방전 데이터를 가명화하여 제약사에 판매한 사건이 문제가 되어, 해당 데이터가 사실상 재식별 위험이 높은 상태였던 점이 지적되었습니다privacy.go.kr. 이를 계기로 2016년 개인정보 비식별 조치 가이드라인이 발표되어, 각 기관이 데이터를 비식별 처리할 때 전문가 집단 평가를 거치고 k-익명성 등의 기준을 충족하도록 권고되었습니다m.boannews.com. 실제 예로 통계청 등 공공기관에서는 마이크로데이터를 외부에 제공할 때 k-익명성을 확보하거나, 민감정보 다양성 요건을 검토하는 등 이러한 모델들을 적용해 왔습니다. 또 일부 병원과 연구기관은 환자 데이터를 활용할 때 l-다양성 요건을 적용하여 동질적 민감정보 그룹이 없도록 처리하기도 합니다.

한편, 최근에는 차등프라이버시(Differential Privacy)와 같이 통계적 노이즈를 추가해 이론적으로 재식별 가능성을 확률적으로 제한하는 새로운 모델이 각광받고 있습니다. 미국 인구조사국은 2020년 센서스에 차등프라이버시를 도입했고, 구글·애플 등 빅테크도 사용자 데이터 수집에 이 기법을 활용 중입니다. 이러한 추세는 기존 k-익명성 계열 모델들이 가진 한계를 보완하려는 움직임이라 볼 수 있습니다.

실무 상의 고려사항과 한계

프라이버시 보호 모델들을 적용한다고 해서 자동으로 안전이 보장되는 것은 아닙니다. 실무에서 데이터를 비식별화할 때는 해당 데이터의 내용과 활용 맥락을 함께 고려해야 합니다. 첫째, 적절한 모델 선택과 파라미터 설정이 중요합니다. 예를 들어 데이터 속성이 매우 민감하고 재식별 위험이 크다면 k를 높게 잡고 l, t 요건도 병행 검토해야 합니다. 반대로 데이터 활용성도 중요하다면 지나치게 엄격한 기준으로 데이터가 쓸모없어지지 않도록 균형을 잡아야 합니다. 이때 하나의 정량 지표에만 의존하기보다, 정성적 평가와 정량적 평가를 병행하여 비식별화 수준을 판단하는 것이 권장됩니다ggbang.tistory.comggbang.tistory.com. 국내 가이드라인에서도 비식별 조치 적정성 평가는 전문가들이 데이터 특성, 민감성, 활용 목적 등을 함께 살펴보도록 하고 있습니다ggbang.tistory.comggbang.tistory.com.

둘째, 배경지식의 범위에 유의해야 합니다. 공격자가 무엇을 알고 있을지 알 수 없기 때문에, 공개 정보로 추론 가능한 모든 경로를 차단하는 것은 어렵습니다. 예를 들어 k-익명성과 l-다양성을 충족했더라도, 공격자가 특정 그룹에 속한 인물들의 공통점을 알고 있다면 여전히 정보 노출이 일어날 수 있습니다itwiki.kritwiki.kr. 따라서 잔여 위험에 대한 관리가 필요합니다. 데이터 제공 시 이용자에게 재식별 금지 규약을 동의받고, 만약 재식별이 시도되거나 발생하면 법적 제재가 따름을 명시하는 등의 법적·관리적 조치를 병행해야 합니다.

셋째, 데이터 특성 변화와 연속적 공개에 따른 위험입니다. 한 번 비식별화한 데이터라도, 다른 데이터와 추가 결합되거나 시간에 따라 업데이트되면 새로운 식별 가능성이 생길 수 있습니다. 예를 들어, 동일한 데이터셋을 월별로 공개하면 각 월의 변경점을 비교(differencing attack)하여 개인을 추론할 수 있습니다. 그러므로 정기적 데이터 공개 시에는 매번 동일한 프라이버시 모델 기준을 유지하는 것뿐 아니라, 출력 교차 검토를 통해 누적 공개로 인한 정보 노출이 없는지 살펴봐야 합니다.

끝으로, 데이터 유형에 따른 적합한 모델 활용도 고민해야 합니다. k-익명성, l-다양성 등은 정형화된 테이블 데이터에 주로 적용되나, 위치 데이터, 그래프 데이터처럼 구조가 다른 정보에는 별도의 프라이버시 모델이 필요합니다12bme.tistory.com. 경우에 따라서는 가명처리(코드화)나 총계처리(집계) 등의 기법과 혼용해 사용하는 편이 현실적입니다. 실제 현업에서는 완벽한 비식별보다는 “충분히 식별 위험이 낮은 상태”를 목표로 하고, 남은 위험은 활용 환경을 통제함으로써 관리하는 접근을 취하고 있습니다.

요약하면, k-익명성, l-다양성, t-근접성은 개인정보 비식별화의 중요한 도구들이지만, 각자의 전제 조건과 한계를 정확히 이해하고 활용해야 합니다. 데이터 활용 목적에 비해 과도하게 높은 프라이버시 요구는 데이터 유용성의 희생을 부르고cs.cornell.edu, 반대로 편의에 치우친 비식별화는 개인정보 침해 위험을 초래할 수 있습니다. 결국 핵심은 프라이버시 보호와 데이터 활용의 균형을 찾는 것입니다ggbang.tistory.com. 이를 위해 전문지식과 현장 경험을 접목한 종합적인 접근이 요구됩니다.

저작자표시 변경금지 (새창열림)

'개인정보·프라이버시' 카테고리의 다른 글

73. K-익명성·L-다양성 모델을 활용한 가명처리 실제 사례 (0)	2025.12.29
72. 가명정보 제도와 활용: 정책 동향과 실무 사례 (0)	2025.12.28
69. 실무자가 주목해야 할 가명정보 이슈 (2024년~2025년) (0)	2025.12.27
66. 사내 개인정보보호 교육, 실무자의 어려움과 개선 팁 (1)	2025.12.26
60. 회사 부서별 개인정보 처리 실무와 영향평가 유의점 (0)	2025.12.24

현재글71. 프라이버시 보호 모델: k-익명성, l-다양성, t-근접성의 개념과 차이점

Privacy Desk

시큐로그, 개인정보보호위원회, 로그관리, 가명정보, siem, 프라이버시, 보안운영, 개인정보보호, 인프라보안, 개인정보담당자, 보안관제, 데이터활용, 보안담당자, 개인정보보호법, 개인정보영향평가, 자동화·툴·API, 접근통제, 보안커리어, 컴플라이언스, 정보보안,

Today :
Yesterday :

Privacy Desk