[장윤옥의 창]인공지능, 좋은 데이터가 먼저다

머니투데이 장윤옥 테크M 편집장 2017.09.13 05:00
글자크기
구글 클라우드의 인공지능 사업을 총괄하는 페이페이 리는 부모님을 따라 16살에 미국으로 간 이민자다. 영어도 유창하지 않은 그녀가 구글의 핵심 사업을 이끌게 된 것은 지금의 인공지능 기술을 한 단계 발전시킨 주인공이기 때문.

그녀는 아마존의 크라우드 소싱 시스템을 활용, 일종의 이미지 은행을 만들었다. 세계 각국에서 5만 여명이 참여해 10억 장에 달하는 이미지를 분야별로 분류하고 이미지의 내용에 맞는 영어 단어를 붙이는 작업을 한 것. 이후 1500만장에 달하는 이미지 데이터베이스를 구축, 누구나 쉽게 활용할 수 있도록 무료로 공개했다.



그녀가 이 같은 일을 한 것은 인공지능 연구에 좋은 데이터가 얼마나 중요한 지 누구보다 잘 알았기 때문이다. 인공지능 기술을 적용해 데이터를 분석하고 활용하려면 컴퓨터가 잘 이해할 수 있게 정리한 데이터가 필수적이다. 수학 공부를 하려면 좋은 문제와 함께 제대로 된 답안지가 있어야 하는 것과 마찬가지. 아무리 최고의 인공지능 기술을 적용한다 해도 오류투성이 불량 데이터로 학습한다면 쓸모없는 답만을 내놓을 뿐이다. 틀린 답안지만 믿고 공부한 다음 시험을 보는 것과 같은 상황이 되는 것이다.

이 때문에 페이페이 리는 ‘논문을 쓸 수 있는 연구를 하라’거나 ‘무모한 프로젝트’라는 주위의 걱정에도 아랑곳 하지 않고 이 사업을 꾸준히 진행했다.



인공지능 기술은 최근 가장 관심이 뜨겁고 투자가 많은 기술 분야다. 자동차와 통신, 상거래 등 모든 분야에서 인공지능 기술이 활용되고 있고 앞으로도 적용 대상은 더욱 더 늘어날 전망이다. 이에 따라 날로 몸값이 높아지고 있는 것이 바로 데이터다.

기업들도 그동안 서비스를 제공하고 제품이나 서비스를 생산, 유통, 판매하는 과정에서 축적한 데이터가 기업의 핵심 자산이라는 점을 인식하기 시작했다. 아마존은 싼 값에 제품을 파는 대신 거래를 통해 축적한 고객의 데이터를 기반으로 새로운 시장에 뛰어들고 신규 서비스를 내놓고 있다. 다른 기업들 역시 서비스나 상품판매를 통해 얻은 데이터를 활용하는 데 관심이 많다. 스마트 스피커 등 다양한 디바이스를 통해 데이터 수집 채널을 확대하려는 노력도 활발하다.

민간뿐만 아니라 정부나 의료기관, 사회단체 등에서도 데이터를 활용해 기존 서비스의 수준을 높이거나 혁신적인 서비스를 만들려는 시도를 하고 있다. 통신과 교통 데이터를 바탕으로 감염병 확산의 경로를 예측하는 가하면 사람들의 유전자를 분석, 개인에게 딱 맞는 치료법을 제시하기도 한다. 전력소비량을 줄이거나 우범지역 감시를 효율화하는 데도 데이터가 큰 역할을 한다. 이 때문에 전문가들은 데이터를 ‘미래의 원유’, ‘새로운 산업의 쌀’이라고까지 부르고 있다.


문제는 우리가 갖고 있는 데이터가 대부분 당장 쓸 수 없는 형태로 수집, 보관되고 있다는 점이다. 고객과의 상담내용을 분석, 더 효율적인 서비스를 제공하려는 시도를 했던 한 금융기업은 고민 끝에 결국 인공지능 기술 적용을 포기했다. 계약 상담을 진행한 수 만 시간 분량의 음성데이터가 있었지만 그 데이터가 어떤 내용인지 제대로 정리돼 있지 않거나 상담후 어떤 고객반응이 있었는지, 어떤 조치를 했는지를 알 수 없었기 때문.

우리에게 지금 각 분야나 조직에 페이페이 리 존재가 필요한 상황이다. 하지만 모든 사람들에게 그녀 같은 헌신을 기대할 수는 없다. 당장 페이페이 리 같은 존재를 만들 수 없다면 적절한 보상을 제공, 시장이 그 역할을 하도록 해야 한다. 데이터의 가치를 인식한다면 좋은 데이터를 만드는 역할의 중요성을 인식하고 이에 대한 적절한 보상을 해 줘야 한다. 좋은 데이터가 많아져야 인공지능 기술육성도 빅데이터 활용도 가능해진다.
장윤옥 테크M 편집장장윤옥 테크M 편집장




TOP