공공데이터 개방해 15만개 일자리 창출한다는데

머니투데이 조성훈 기자 | 2013.07.13 05:46

[조성훈의 IT는전쟁중]공공데이터의 진정한 경제효과 '개방' 그자체에

지난달 중순 정부가 공공데이터 개방을 골자로 한 정부3.0 비전을 발표할 당시 다소 논란이 됐던 게 바로 공공데이터 개방의 효과였습니다.

정부는 공공데이터 개방시 24조원의 경제효과와 15만개의 일자리를 창출할 수 있다고 했습니다. 이는 한국정보화진흥원과 KAIST의 공동연구 결과에 따른 것입니다.

공공데이터시장이 연평균 7%가량 성장한다는 해외연구를 토대로 한국은행이 매년 발간하는 산업연관표를 적용해 유추한 결과 23조9000억원의 생산 유발효과와 14만7000명의 고용 유발효과가 생긴다는 설명입니다.

그러나 일부 전문가들은 "효과가 좀 과장된 것 같다면서 정보의 단순공개만으로 기대하는 경제적 효과를 얻기 어렵다"고 지적했습니다.

장영재 KAIST 교수 / 사진=장영재교수
지난 11일 열린 국가오픈데이터포럼행사에서 해당 연구를 수행한 카이스트 장영재 산업시스템공학과 교수를 만났는데 그의 변이 흥미롭습니다. "오히려 0을 하나 더 붙여도 이상할 게 없다"는 겁니다. 그는 빅데이터 관련 흥미로운 시도로 주목을 받고 있는 소장학자입니다.

그는 과거 프로야구에 빅데이터 분석을 접목해 주목받은 바 있습니다. 2010년 프로야구팀의 선수별 타순기용의 효과를 분석했는데 그 결과 SK 김성근감독과 롯데 로이스터 감독을 가장 좋은 타순을 짠 감독이 꼽힌 겁니다.

간단히 소개하자면 방법은 이렇습니다. 8개 구단의 1번부터 9번까지 가장 많이 기용된 선수로 짠 '최적 타순'의 기대 득점과 9명의 선수로 가능한 36만 2880만 전체조합의 기대득점을 모두 구한 결과를 비교해 순위를 매긴 것입니다. 그 결과 SK와 롯데가 가장 효율적인 타순을 짰고, 나머지 6개 구단은 타순구성이 비효율적이어서 얻을 수 있는 점수를 잃었다는 것입니다. 이는 김성근 감독의 '데이터야구론'을 뒷받침하는 것이어서 화제가 되기도 했습니다.

프로야구 경기장 / 사진=임성균기자
자칭 야구광인 그는 이날도 야구 얘기부터 꺼냈습니다. 지난 5년간 한국야구의 모든 기록데이터를 수집했고 이를 수학적으로 모델링해 게임진행 상황에 따른 각팀의 승률을 예측하는 시스템을 만들었다는 겁니다.

실제 그는 지난 2011년 4월 2일 삼성과 기아의 광주전과 4월 9일 LG와 한화의 대전경기, 5월 21일 두산과 삼성의 대구경기의 매회별 승률의 변화를 그래프화해 보여줬습니다. 그 결과 안타나 득점 상황에 따라 승률이 요동을 치는 것을 확인했습니다. 좋아하는 야구팀의 현 시점 승률이 표시된다면 게임이 더 흥미진진해질 겁니다.
상식적인 결과로도 볼 수 있지만 야구 자체를 모델링하고 데이터로 검증한 세계 첫 시도라고 합니다.

그는 나아가 이같은 승률변화에 따른 관중들의 재미와 몰입도를 평가하기위해 네이버에서 2500만건 이상의 경기댓글을 분석했는데, 그 결과 어느 한쪽이 일방적인 경기를 하는 것보다 역전을 하거나 엎치락뒤치락하는 경기에서 고정적인 댓글작성자 외에 새로운 이들의 댓글유입이 이뤄진다는 것을 확인했습니다.


이를 통해 장교수는 개인들이 최고의 흥미를 느낄 수 있는 취향별 야구 하이라이트 제공시스템을 고안했습니다. 실시간 승률예측 데이터를 바탕으로 댓글정보, 실시간 야구영상, 개인의 야구시청 패턴과 선호도 등을 조합해 개인별 최적의 요약영상을 제공하는 방식입니다. 영국의 17세 소년이 개발한 뉴스요약 앱 '썸리'가 수백억원에 야후에 매각된 것처럼 야구정보로 새로운 비즈니스모델이 가능할 것이라는 생각이었습니다.

그러나 이같은 아이디어는 곧 벽에 부딪혔습니다. 문제는 국내프로야구 데이터가 KBO(한국야구위원회)의 것으로, 아직 공공데이터가 아니라는 이유 때문입니다. 결국 데이터분석에 앞서 중요한 게 바로 공공데이터의 개방인 셈입니다.

장교수팀이 2011년 5월 21일 대구에서 벌어진 두산-삼성전 경기의 승률을 분석한 데이터. 매회 안타나 득점 상황에따라 팀별 승률이 달라진다. 가운데 노란부분은 무승부확률. / 자료=장영재 교수

앞서 가트너도 지난해 '정보개방이 빅데이터보다 중요하다'는 도발적인 리포트를 낸바 있습니다. 데이터를 쓸 수 있어야 빅데이터도 가능하다는 이치입니다.

그는 공공데이터의 가치를 강조하는 사례도 제시했습니다. 과거 런던의 콜레라 발병과 뉴욕시의 지하 전력선 수리사례입니다. 1854년 런던 중심가에서 콜레라가 발병해 10일간 500여명이 사망했는데, 당시 의사였던 존 스노우가 위험을 무릅쓰고 사망자의 거주지 정보나 사망위치, 주변인물 인터뷰를 통해 일종의 사망 패턴을 확인했고 결국 오염된 펌프가 질병의 원인임을 밝혀냈습니다.

이는 데이터 분석의 고전이지만 오늘날 상황과도 매치시킬 수 있습니다. 사망위치는 결국 공공정보의 센서나 GIS 위치데이터와 같고, 사망전 행적조사는 개개인이 생성하는 소셜정보로 볼 수 있다는 겁니다. 또 사망위치와 행적을 바탕으로 시행된 역학조사는 '데이터마이닝'(Data mining)이며, 결국 펌프를 원인으로 발견해낸 것은 오늘날 공공데이터 분석을 통한 최적의 정책 의사결정과 응용서비스 개발로 볼 수 있다는 겁니다.

최근 뉴욕시 역시 화재와 누전이 이어지자 수백억원을 들여 맨홀밑 전선을 전면교체하는 방안을 검토했습니다. 그러나 한 인공지능학자의 제안으로 과거 쓸모없게 생각하던 수십년간 전선 유지보수 관련 자료를 통해 보수할 전선과 맨홀의 위험지수를 파악해낼 수 있었습니다. 엄청난 예산이 절감됐습니다.

그럼 다시 공공데이터 개방의 경제성 계산이 타당한가에 대한 질문으로 돌아가 봅니다. 답은 이미 나왔습니다. 공공데이터의 가치는 무궁무진하며, 24조원, 15만개의 일자리라는 숫자자체는 중요한 게 아닌 셈입니다. 장교수는 "인터넷등장 이전에 IT산업전망이 무의미하듯이 데이터개방의 효과에 대한 수치적 판단은 무의미하다"고 일축했습니다. 오히려 지엽적 이슈로 공공데이터 개방의 가치를 훼손하는 일이 발생할까 걱정이라는 겁니다.

첨언하자면 정부가 3.0 개념을 통해 정보를 대거 공개하도록 결정한 것은 늦었지만 다행스러운 일입니다. 다만 공공데이터 개방이 전시행정으로 흐르지않도록 리더십과 현실적인 관심, 지원이 필요하다는 지적입니다. 정부에 불리한 정보나 데이터라고 해서 공개를 주저하는 일도 없어야합니다. '데이터를 나누고, 행복을 누리자'라는 정부의 슬로건이 말그대로 실현됐으면 합니다.

베스트 클릭

  1. 1 "번개탄 검색"…'선우은숙과 이혼' 유영재, 정신병원 긴급 입원
  2. 2 유영재 정신병원 입원에 선우은숙 '황당'…"법적 절차 그대로 진행"
  3. 3 법원장을 변호사로…조형기, 사체유기에도 '집행유예 감형' 비결
  4. 4 '개저씨' 취급 방시혁 덕에... 민희진 최소 700억 돈방석
  5. 5 "통장 사진 보내라 해서 보냈는데" 첫출근 전에 잘린 직원…왜?