1000만 서울시민 자산·부채정보, 개인정보 침해없이 훑은 비결은?

머니투데이 황국상 기자 | 2024.02.23 14:33

지난 22일 서울시민 라이프스타일 재현 데이터가 공개됐다. 서울시민 가구당 평균 자산이 9억5300여만원에 이르고 평균 대출은 9200만원이며 대출이 있는 가구 중 20% 가량은 부채상환 위험이 크다는 등 내용이었다. 연평균 가구당 소득(7369만원), 1인 가구 소비 패턴 등 내용도 공개됐다.

23일 업계에 따르면 전일 서울시가 발표한 '서울시민 라이프스타일 재현 데이터'는 LG CNS(엘지씨엔에스)가 만들었다. 주민등록 자료, 건축물 대장, 신용정보회사와 카드사 및 통신사 등 민간 3사에서 제공받은 데이터를 기반으로 합성 데이터를 만든 것이다.

합성 데이터란 원본 데이터의 통계적 특성은 유지하면서도 개인 식별 위험은 없앤, 데이터 활용 가치를 유지한 데이터를 일컫는다. 유사한 개념으로 가명정보가 있다. 추가정보의 사용 없이는 특정 개인을 알아볼 수 없도록 조치한 정보가 바로 가명정보다. 그러나 통계 작성이나 공익적 기록 보전, 과학적 연구 등 제한적 목적 외에는 정보주체 동의 없이 활용이 어렵다는 한계가 있다. 합성데이터는 가명정보의 한계를 넘는 대안으로 꼽힌다.

이번에 LG CNS가 생성한 서울시 합성데이터는 충분한 안전성을 확보해 누구나 자유롭게 활용 가능하다. 서울시 합성데이터를 활용해 유관기관들은 정책연구 사전설계를, 시민들은 데이터 분석 실습 등을 더욱 활발하게 진행할 수 있다. 누구라도 서울시 오픈 플랫폼 '빅데이터 캠퍼스'에 접속하면 이를 활용할 수 있다. 예컨대 서울시민 금융현황 데이터의 경우 약 65개 변수, 740만건 가량의 합성 데이터로 이뤄져 있다. 시민이나 기관 등은 △성별 △생년월일 △직업 △추정연소득 △자산금액 △대출잔액 등 약 65개의 변수를 조합해 서울시민의 금융 현황 데이터를 분석하고, 인사이트를 얻을 수 있다.


LG CNS는 "정교한 합성데이터를 생성하기 위해서는 활용 목적에 적합한 실용성 있는 시나리오를 설계하는 노하우와 빅데이터, AI 기술력이 필수"라며 "LG CNS는 2022년부터 가명 결합을 위한 결합전문기관, 데이터전문기관 서비스와 가명정보처리 컨설팅, 분석, 결합대상 데이터 중개 등 '가명 데이터결합분석 통합 서비스' 사업을 본격화했다"고 했다.

또 "카드, 은행, 신용평가, 통신, 유통, 모빌리티, 글로벌 빅테크 등 다양한 분야의 기업 파트너들과 함께 데이터결합분석 활용 유스케이스(사용 사례)를 확보하면서 합성데이터 관련 전문성을 강화했다"고 설명했다.

황윤희 LG CNS 데이터허브&플랫폼사업담당 상무는 "앞으로 모든 분야에서 개인정보 보호와 데이터 활용에 대한 중요성이 더욱 커질 것"이라며 "고객들이 LG CNS의 가명정보 결합, 합성데이터 역량을 통해 새로운 비즈니스 인사이트와 기회를 얻을 수 있도록 서비스를 확대할 계획이며, 이를 통해 차별적 고객경험을 제공하겠다"고 강조했다.

베스트 클릭

  1. 1 노동교화형은 커녕…'신유빈과 셀카' 북한 탁구 선수들 '깜짝근황'
  2. 2 "바닥엔 바퀴벌레 수천마리…죽은 개들 쏟아져" 가정집서 무슨 일이
  3. 3 '황재균과 이혼설' 지연, 결혼반지 뺐다…3개월 만에 유튜브 복귀
  4. 4 '日 노벨상 산실' 수석과학자…'다 버리고' 한국행 택한 까닭은
  5. 5 "당신 아내랑 불륜"…4년치 증거 넘긴 상간남, 왜?