73. K-익명성·L-다양성 모델을 활용한 가명처리 실제 사례

개인정보·프라이버시

73. K-익명성·L-다양성 모델을 활용한 가명처리 실제 사례

privacydo 2025. 12. 29. 09:00

프라이버시 보호 모델과 가명처리의 개요

가명처리는 개인정보를 안전하게 활용하기 위해 식별 요소를 변경하거나 제거하는 기법으로, 프라이버시 보호 모델을 적용하여 재식별 위험을 낮출 수 있습니다. 먼저 데이터를 직접식별자(예: 이름, 주민번호)와 준식별자(예: 나이, 성별, 지역)로 구분하고 직접식별자는 모두 삭제 또는 대체합니다12bme.tistory.comsecurityandprivacy.tistory.com. 준식별자는 다른 데이터와 결합하면 개인을 유추할 수 있으므로 일반화나 범주화 등의 변형을 가해 K-익명성(K-anonymity) 등의 모델 기준을 만족시켜야 합니다12bme.tistory.comit-license.tistory.com. 이러한 프라이버시 모델은 데이터 활용 시 연결 공격이나 추론 공격으로부터 개인정보를 보호하기 위해 고안된 것입니다12bme.tistory.com.

K-익명성의 원리와 적용 예시

K-익명성은 데이터 집합에서 동일한 준식별자 값을 가진 레코드가 최소 k개 존재하도록 하여, 특정 개인이 속한 그룹에서 구별되지 않도록 만드는 프라이버시 모델입니다it-license.tistory.com. 예를 들어 환자 의료데이터 테이블에서 지역코드, 연령, 성별을 준식별자로 볼 때, 이들을 일반화/범주화하여 각 조합이 적어도 4명의 환자(레코드)를 공유하도록 만들면 K-익명성을 달성할 수 있습니다it-license.tistory.com.

예를 들어 위 그림은 환자 데이터에 K-익명성을 적용한 사례입니다. 원본 데이터에서는 지역코드 13053, 연령 28, 성별 남인 조합 등이 특정 환자를 지목할 수 있었지만, 가명처리 후에는 지역코드를 일부 마스킹하고 연령을 범주(예: 20대→2*, 30대→3*)로 일반화하여 1~4번, 5~8번, 9~12번 레코드씩 동일한 준식별자 값을 갖는 그룹을 형성했습니다. 이로써 개별 환자는 해당 그룹 내 다른 환자들과 섞여 동일한 프로파일을 가지게 되며, 공격자가 외부 정보로 결합하더라도 한 개인을 특정할 수 없도록 만든 것입니다it-license.tistory.com. 예컨대 공격자가 특정 환자가 1~4번 그룹에 속함까지는 알아낼 수 있어도, 그 그룹 내 4명 중 누가 해당 환자인지, 전립선염인지 고혈압인지와 같은 민감 정보는 구별할 수 없게 됩니다it-license.tistory.com.

이처럼 K-익명성 모델은 연결 공격에 대비해 데이터의 식별 가능성을 수치적으로 낮춰주지만, 몇 가지 한계도 존재합니다. 한 그룹의 모든 레코드가 동일한 민감정보를 가지는 경우 동질성 공격(Homogeneity attack)에 취약해질 수 있고it-license.tistory.com, 외부에 알려진 상식이나 부가 정보로 특정 값을 배제하는 배경지식 공격(Background knowledge attack)이 가능할 수 있습니다it-license.tistory.com. 예를 들어 위 가명처리된 환자 데이터에서 9~12번 레코드 그룹의 질병 정보가 모두 ‘위암’이라면, 해당 그룹에 속한 사람은 누구나 위암 환자임을 알 수 있어 K-익명성만으로는 민감정보가 노출됩니다it-license.tistory.com. 또 다른 예로, 공격자가 환자 이지민의 나이와 성별을 알고 있어 1~4번 그룹에 속함을 알아냈다고 합시다. 그 그룹의 질병이 전립선염 또는 고혈압 두 가지인데, “여성은 전립선염에 걸리지 않는다”는 상식을 대입하면 이지민의 질병이 고혈압으로 단번에 추론되는 식입니다it-license.tistory.com. 이러한 위험을 막기 위해서는 추가적인 모델을 적용해야 합니다.

L-다양성과 추가 프라이버시 보호

L-다양성(L-diversity)은 K-익명성을 보완하여, 각 동질 그룹(준식별자 값이 동일한 레코드 집합) 내에 최소 ℓ개의 서로 다른 민감정보가 포함되도록 하는 모델입니다it-license.tistory.comit-license.tistory.com. 즉, 한 그룹이 하나의 민감정보로만 이루어지지 않게 다양성을 확보하는 것입니다. 앞서 예시에서 9~12번 그룹처럼 동일 질병으로 구성된 그룹은 L-다양성 기준을 충족하지 못하므로, 해당 그룹을 쪼개거나 데이터값을 조정해 위암만 있는 그룹이 없도록 재가명처리해야 합니다it-license.tistory.com. 이렇게 하면 설령 공격자가 특정 그룹에 대해 일부 배경지식을 갖고 있더라도, 그 그룹에 여러 종류의 민감정보가 섞여 있기 때문에 정확한 추론이 어려워집니다it-license.tistory.com. 예를 들어 이지민의 사례에서, 해당 그룹 내 질병이 전립선염, 고혈압, 위암 세 가지로 다양하다면 “여성은 전립선염에 걸리지 않음”이라는 정보를 적용해도 여전히 두 개 이상의 가능성(고혈압 또는 위암)이 남게 되어 개인의 민감정보 노출을 막을 수 있습니다it-license.tistory.com.

L-다양성 모델로도 해결하지 못하는 경우를 위해 T-근접성(t-closeness) 같은 추가 모델도 제안되어 있습니다12bme.tistory.com. T-근접성은 각 그룹의 민감정보 분포가 전체 데이터의 분포와 크게 벗어나지 않도록 하여, 특정 민감값의 비율 쏠림으로 인한 노출 위험을 줄이는 모델입니다12bme.tistory.comit-license.tistory.com. 이처럼 t-근접성까지 적용하면 그룹 내 민감정보 분포를 글로벌 분포와 비슷하게 유지하여 특정 값만 많은 경우를 방지할 수 있습니다it-license.tistory.com. 그 외에도 데이터 유형에 따라 δ-존재, m-유사성 등의 다양한 프라이버시 모델이 연구되어 왔습니다12bme.tistory.com. 실무에서는 데이터 특성과 활용 목적에 맞추어 이러한 모델 중 하나 이상을 적용하여 재식별 위험을 체계적으로 평가 및 감소시킵니다12bme.tistory.com.

다양한 도메인에서의 가명처리 사례

프라이버시 보호모델은 의료 분야 외에도 고객정보 데이터 등 다양한 영역에 적용될 수 있습니다. 예를 들어 한 소매업체의 고객 데이터베이스에 고객ID, 이름, 나이, 주소, 구매상품, 결제액 등의 컬럼이 있다고 가정해 보겠습니다. 내부 분석이나 통계 작성을 위해 이 데이터를 가명처리할 때는, 직접식별자인 고객ID와 이름을 삭제하거나 무작위 대체(ID를 별도의 키로 대체)하고, 간접식별자인 나이와 주소 등을 일반화해야 합니다. 구체적으로는 나이는 5세 단위 혹은 10대/20대/… 식으로 구간화하고, 주소는 시/군 정도까지만 남겨 상세 주소를 제거합니다securityandprivacy.tistory.com. 이렇게 하면 개별 고객을 알아보기 어렵게 하면서도 데이터의 유용한 특성(연령대별, 지역별 트렌드 분석 등)은 유지할 수 있습니다. 또한 구매상품이나 결제액과 같은 민감정보로 활용될 수 있는 항목에 대해서도, 한 그룹의 고객들이 다양한 상품군을 구매하거나 다양한 금액대로 분포되도록 L-다양성을 고려할 수 있습니다. 예를 들어 VIP 고객 그룹의 모든 사람이 동일 고가 제품만 샀다면 그 사실 자체가 민감도가 있을 수 있으므로, 가명처리 시 해당 그룹에 구매 상품 다양성이 확보되도록 하는 식입니다.

끝으로

가명처리 사례에서는 가능하다면 예시 데이터를 만들어 모델 적용 전후를 비교하는 것이 이해에 도움이 됩니다. 앞서 소개한 의료 데이터의 사례처럼, 원본 데이터와 가명처리 데이터를 대조하여 어떤 값들이 삭제/대체되었고, 어떻게 범주화/마스킹되었는지를 문서로 남기면 좋습니다. 이를 통해 데이터 활용자들은 해당 가명정보의 한계(예: 너무 범용화되어 상세분석이 어려운 부분)와 강점(개인정보 노출 위험이 낮아진 부분)을 명확히 파악할 수 있습니다. K-익명성, L-다양성 등의 모델 기반 가명처리는 이처럼 데이터 가치와 프라이버시 보호의 균형을 맞추는 핵심 도구이며, 의료·금융·마케팅 등 여러 분야에서 개인정보 활용 시 폭넓게 응용되고 있습니다.

저작자표시 변경금지 (새창열림)

'개인정보·프라이버시' 카테고리의 다른 글

74. 가명처리 적정성 검토 실무 가이드: 기준, 절차 및 체크리스트 (1)	2025.12.29
72. 가명정보 제도와 활용: 정책 동향과 실무 사례 (0)	2025.12.28
71. 프라이버시 보호 모델: k-익명성, l-다양성, t-근접성의 개념과 차이점 (0)	2025.12.28
69. 실무자가 주목해야 할 가명정보 이슈 (2024년~2025년) (0)	2025.12.27
66. 사내 개인정보보호 교육, 실무자의 어려움과 개선 팁 (1)	2025.12.26

현재글73. K-익명성·L-다양성 모델을 활용한 가명처리 실제 사례

Privacy Desk

프라이버시, 데이터활용, 개인정보보호, siem, 로그관리, 시큐로그, 개인정보영향평가, 정보보안, 보안관제, 개인정보보호법, 보안담당자, 보안커리어, 보안운영, 개인정보담당자, 자동화·툴·API, 개인정보보호위원회, 컴플라이언스, 가명정보, 접근통제, 인프라보안,

Today :
Yesterday :

Privacy Desk