"정확도 80% 빅데이터 분석? 온몸으로 체득했죠"

머니투데이 홍재의 기자 2013.06.10 05:32
글자크기

[K-앱스타 2013] '카톡감정분석! 텍스트앳'개발한 김종윤 스캐터랩 대표

텍스트앳을 개발한 스캐터랩 김종윤 대표 / 사진=구혜정기자텍스트앳을 개발한 스캐터랩 김종윤 대표 / 사진=구혜정기자


"실제로는 심리학, 컴퓨터공학, 통계학, 언어학 등이 융합된 복잡한 기술이 들어가는 앱이죠. 그런데 실제로 사용해보지 않은 분들은 뇌구조나 심리테스트 같은 엔터테인먼트 앱 정도로 가볍게 생각하는 경향이 있어요"

'카톡감정분석! 텍스트앳(이하 텍스트앳)'으로 '대한민국모바일앱어워드 2013' 4월 이달의 으뜸앱을 수상한 김종윤 스캐터랩 대표는 진지했다. 텍스트앳은 사용자 10만명의 6억개 실제 대화 데이터를 확보해 만든 앱, 김 대표가 향후 대학원에 진학하게 된다면 이 앱을 주제로 논문을 써보고 싶다는 의사를 표현할 정도로 융합 기술이 사용된 앱이다.



텍스트앳은 빅데이터의 산물이다. 실제 앱을 개발하기 시작한 시점은 지난해 빅데이터가 IT분야를 강타하기도 전이다. 지난 2010년 사회학을 복수전공하고 있던 김 대표가 통계관련 수업에서 학기 팀별 과제로 2000여명을 설문조사 한 것에서 시작했다.

김 대표는 설문을 통해 각자 이성친구에게 보낸 문자메시지를 수집해 분석했다. 김 대표의 발표를 들은 그의 교수는 연구를 활용해 실제 서비스를 해보라는 조언을 했다. 아이디어를 상품화 하고 싶었던 김 대표는 지난 2011년 8월 고등학교 동창 2명과 함께 스캐터랩을 설립했다.



지난해 3월 기존 데이터와 비공개 서비스 등을 통해 확보한 데이터로 오픈 베타 서비스를 시작했다. 그러나 프로그램 개발과 서버 관리 기술이 미흡했다. 단기간에 30만명이 몰리는 대성황을 이뤘지만 반대로 서비스는 엉망이 됐다.

대신 30만명이 주고받은 메시지를 데이터로 확보할 수 있었다. 포털 업체에서 7년 이상 개발 경험을 갖춘 2명의 조력자도 합류했다. 김 대표는 "옆 사무실을 쓰던 두 분이 개발 경험이 많아서 조언을 자주 구했는데 아이디어가 참신하다보니 같이 사업을 해보자며 스캐터랩에 합류했다"고 설명했다.

텍스트앳이 본격적인 빅데이터 기술의 반열에 오른 것도 이때부터다. 김 대표는 데이터를 쌓아 사용자 10만명의 6억개 실제 대화 데이터를 확보했다. 사용자가 주고받은 문장을 형태소별로 분석하고 여기에 비표준어, 띄어쓰기를 지키지 않은 문장, 은어 등을 일일이 대응했다.


김 대표는 "우리나라 말은 변형이 심하고 알파벳으로 쪼개지지 않는 언어라 초기 툴을 구축하는데 시간이 많이 소요됐다"며 "인간의 언어 패턴이 보편적인 부분이 있기 때문에 이제는 새로 유행하는 언어나 은어 외에는 대부분 대응할 수 있다"고 자신했다.

그는 텍스트앳의 정확도를 80%정도로 예상했다. 그가 확보한 6억개의 실제 대화 중 5억개만 컴퓨터에 입력한 뒤 나머지 1억개의 대화 패턴을 예상하라고 명령했을 때 80% 수준으로 예측한다는 것. 대학교 입학 후 이성교제를 5~6번 정도 했다는 김 대표가 실제 연애 생활에서 1차 사용자로 직접 경험해 본 예상 수치이기도 하다.

80%라는 높은 정확도가 나온 것은 김 대표가 몸소 부딪쳐 만들어낸 빅데이터 분석 노하우 때문이다. 그는 변수가 무한에 가까운 언어를 분석하기 위해 연애 경험, 통찰력, 주관적 분석을 컴퓨터 기술과 융합했다.

김 대표는 빅데이터의 환상에서 벗어나야 한다고 조언했다. 그는 "단순 데이터를 많이 확보하고 최신 기술을 사용한다고 해서 정확한 결과가 나오는 것은 아니다"며 "데이터를 어떻게 가공하고 어떤 부분을 중점적으로 볼 것인지 판단을 하는 분석 툴에 정확히 명령해야 의미 있는 데이터가 도출될 수 있다"고 강조했다.

김 대표는 언어의 한계를 극복해 해외시장에도 적극 진출할 방침이다. 그는 "내년 상반기에는 일본어 버전을 출시하고 싶다"며 "한국어 서비스를 하며 노하우를 쌓았고 일본어, 영어 등은 변화폭이 한국어보다 적어 분석에 어려움이 없을 것"이라고 밝혔다.
TOP