귀신 잡는 빅데이터, 혁신을 일으키려면...

머니투데이 실리콘밸리=유병률 특파원 2012.11.05 06:00
글자크기

[유병률의 체인지더월드] 실리콘밸리 ‘빅데이터’ 컨설턴트 한기용씨와 함께

실리콘밸리에서 빅데이터 컨설턴트로 일하고 있는 한기용씨. 실리콘밸리에서 빅데이터 컨설턴트로 일하고 있는 한기용씨.


실리콘밸리에서 빅데이터 컨설턴트로 활동하고 있는 한기용씨의 경험담.

그는 얼마 전 지갑을 잃어버리고도 그 사실을 모르고 있었다. 하지만 이튿날 신고도 하지 않았는데 은행에서 연락이 왔다. 당신 카드가 도용된 것 같아 정지시켰다고. 그는 이제껏 밤에 술집을 거의 다녀본 적이 없다. 하지만 카드는 토요일 밤, 술집과 주유소 등에서 사용됐고, 이를 포착한 은행은 카드를 정지시켰다. 그의 카드사용 패턴과는 너무나 달랐기 때문이다. 천만다행이었다. 이는 은행 직원의 현명함 때문이 아니다. ‘빅데이터’ 때문이다.

월마트는 금요일 저녁이면 맥주와 기저귀를 함께 놓고 판다. 그 광경이 매우 의아스럽다. 그러나 이렇게 매장진열을 바꾸고 나니 금요일 밤 맥주와 기저귀의 매출이 껑충 뛰었다. 금요일 저녁 30-40대 남자들이 무겁고 덩치가 큰 맥주박스와 기저귀박스를 아내 대신 구매해가는 것이다. 마케팅감각이 탁월한 매장기획자의 능력 때문이 아니다. ‘빅데이터’ 때문이다.



잘나가는 한 온라인 소개팅 사이트는 회원으로 가입하면 결혼하게 될 확률이 절반에 가깝다. 까다롭고 콧대 높은 남녀도 소개팅 몇 번 만에 척척 천생 배필을 만나 웨딩마치를 올린다. 미국 최대 온라인 소개팅사이트 이하모니의 놀라운 결혼성공률도 유능한 커플매니저 때문이 아니다. ‘빅데이터’ 때문이다.

빅데이터라고 불리는 대용량 정보들을 모아서 족집게처럼 필요한 정보를 솎아내는 ’데이터마이닝(data mining)‘이 이 모든 놀라운 기록들을 만들어 내고 있다.



최근 구글이 '인터넷이 사는 곳'이라며 공개한 데이터센터 내부. 최근 구글이 '인터넷이 사는 곳'이라며 공개한 데이터센터 내부.
“귀신 잡는 빅데이터”
최근 관심이 높아지고 있는 ‘빅데이터(big data)’라는 말은 사실 데이터를 한곳에 모아 처리할 수 있는 시스템이 갖춰지면서 생긴 용어이다. 데이터를 파고 들어가서 의미 있는 흐름을 찾아내 새로운 부가가치를 만들 수 있게 되면서, 역으로 빅데이터가 부상하기 시작한 것. 한씨로부터 빅데이터 시대의 의미를 들어보았다.

“지금까지는 데이터를 한 곳에 집중할 수 있는 시스템이 없었기 때문에, 데이터가 공중으로 흩어지는 자료일 뿐이었습니다. 하지만 이제 대용량데이터 처리시스템이 갖춰지면서 수많은 데이터들이 새롭고 커다란 의미를 가진 존재가 되고 있는 것이죠.” 특히 한대의 서버로 처리할 수 없는 대용량 데이터를 수백, 수천 대 서버에 나눠서 처리할 수 있도록 한 분산처리 시스템, ‘하둡(Hadoop)’의 역할이 절대적이었다.

그러나 한씨는 “사실 데이터 크기에 관계없이 자신의 시스템에서 수집된 데이터를 잘 가공해서 새로운 의미를 도출할 수 있다면, 이미 빅데이터 시스템을 가지고 있다고 할 수 있다”고 말했다. 얼마나 큰 데이터냐 보다 기존의 데이터에서 어떻게 새로운 것을 읽어내는가를 중요하게 보는 것이다.


고객들의 데이터를 모두 모아 분석해, 지갑을 잃어버렸는지, 어떤 타입의 배우자를 찾고 있는지, 금요일 저녁에 기저귀 박스를 집에 사들여 놓는 착실한 남편인지도 다 알게 된 시대. 어찌 보면 귀신이 곡할 노릇이다.

“데이터의 민주화가 이노베이션을 만든다”
구글보다 야후가 훨씬 세던 시절부터 지난해 말까지 한씨는 야후 검색분야에서 일했다. 그가 하둡과 빅데이터를 빨리 접하게 된 것도 야후에서이다.

“수많은 데이터들이 대체 어디에 있는지, 야후 프로그래머들도 잘 몰랐습니다. 데이터가 존재하는 것과 데이터가 수집돼서 한군데 저장되는 것과는 전혀 다른 이야기이기 때문이죠. 그런데 하둡 시스템이 도입되면서 정해진 위치에 데이터가 저장되고, 또 이 데이터를 하나의 시스템으로 처리할 수 있게 되면서 내부 직원들의 아이디어가 쏟아지더군요.”

야후에도 세상에도 이미 수많은 데이터가 존재했지만, 한군데 모이니 비로소 그 데이터들이 살아 움직일 수 있었던 것.

“아이디어나 혁신도 사실 봐야지 나오는 거거든요. 이전까지는 수많은 데이터가 자기와 상관없던 걸로 생각하던 프로그래머와 연구인력들이 데이터 접근이 가능해지면서 수많은 논문과 데이터 분석을 내놓았던 거죠. 데이터가 민주화되니깐 이노베이션도 나오는 것입니다.”

한씨는 “한국 기업들도 데이터를 수집해 집중하려는 경영진의 의지가 무엇보다 중요하다”고 강조했다. “데이터를 집중하려면 회사 내 모든 팀이 도와주지 않으면 안됩니다. 각 팀이 프로세스를 바꾸는 게 쉽지 않고, 당장 자기 팀의 이해관계가 걸린 것도 아니기 때문이죠.” 기업이 혁신을 하기 위해서는 물론 사람도 바뀌어야겠지만, 데이터를 공유하는 것 역시 중요하다는 지적이다.

그는 “최근 나스닥에 상장된, 미국의 한 부동산회사에 컨설팅을 해주었는데, 이 회사가 부동산 데이터를 한곳에 모으면서 개별주택 가격예측에 걸리던 시간이 일주일에서 6시간으로 줄었고, 내부 직원들의 아이디어도 쏟아지고 있다”고 소개하기도 했다.

구글 데이터센터 냉각 장치. 구글 데이터센터 냉각 장치.
“바야흐로 데이터 사이언티스트의 시대”
빅데이터를 이용한 구글의 트렌드 분석이나, 심지어 구글의 독감예측 능력이 전문가들 분석보다 더 정확하다는 얘기도 있다. 그렇다면 경제학자나 사회학자 등 전문가의 역할도 축소되는 것일까?

“그렇진 않습니다. 왜냐하면 하둡과 같은 빅데이터 시스템은 데이터를 어떤 각도에서 봐야 할지, 어떤 유의미함을 이끌어낼 수 있는지를 말해주진 않죠. 대용량 데이터를 저장하고 프로세싱할 수 있는 기능을 제공할 뿐이죠. 새로운 부가가치를 자동으로 제공하진 않습니다. 그래서 데이터 사이언티스트(data scientist)가 새로운 직종으로 부상하기 시작한 것입니다. 무질서한 것에서 패턴을 찾아내는 통찰력이 더 중요해진 거죠.”

데이터 사이언티스트는 빅데이터 시스템을 통해 새로운 가치와 의미를 찾아내는 역할을 한다. 데이터를 바탕으로 가설을 세우고, 그 가설에 기초해 모델을 만들고, 이를 검증하고 개선하는 작업을 하게 된다. 이 때문에 기본적인 프로그래밍 능력뿐 아니라 수학과 통계, 그리고 해당 비즈니스에 대한 이해가 필수적이다.

“빅데이터와 빅브라더는 종이 한 장 차이”
하지만 누군가 내가 술을 먹는지 안 먹는지, 어떤 여자를 좋아하는지 속속들이 들여다보고 있다는 것을 알게 되었을 때 좋지만은 않을 터. 그는 “모든 개인을 파악하고 감시 감독한다는 빅브러더와 이런 빅데이터는 종이 한 장 차이”라고 말했다. 우리가 인터넷의 편리함에 빠져있는 동안 컴퓨터사이언스는 어느새 우리 머리 꼭대기에 앉아버린 것이다.

그는 자신의 겸연쩍은 기억을 소개했다. “야후에서 개인특성에 맞는 자동검색어 기능을 만들었던 적이 있습니다. 사용자가 한두 글자만 검색창에 입력하면 그가 좋아할만한 검색어들이 자동으로 좌르르 뜨게 하는 것이었죠. 그 사람이 무엇을 검색하고 싶은지 컴퓨터가 미리 알고 보여주는 거죠. 그런데 테스트를 해보니 사용자의 10%정도에 대해서는 성인용 사이트 검색어가 쫙 보여지는 겁니다. 그래서 스톱했죠. 사실 구글 같은 곳은 당신이 무엇을 봤는지, 어떤 일을 하고 있는지 모든 것을 다 알고 있습니다”

그래서 그는 EU(유럽연합)와 미국정부가 구글의 개인정보수집과 통합 등에 대해 규제를 강화하고 있는 것처럼 한국 정부도 규제를 마련해야 하고, 개인정보를 수집할 때 명시적 동의를 받는 등 기업 자체적인 신뢰확보도 중요하다”고 말했다.

이 기사의 관련기사

TOP