송 교수는 인공지능 개발을 위해 지난해 1~6월 뉴스사이트, 블로그, 카페, SNS, 인터넷 게시판 등 237개 온라인 채널에서 언급된 코로나 관련 소셜 데이터 403만 2883건을 수집했다.
이후 주요 키워드를 '단어빈도'와 '문서빈도'로 나눠 분석했다. 단어빈도는 한 문서에서 특정 키워드가 나타난 빈도를 집계하는 것으로, 그 키워드가 얼마나 중요한 지를 보여준다. 문서빈도는 전체 문서에서 특정 키워드가 포함된 문서의 수를 집계해 얼마나 폭넓게 등장하는 지 알 수 있다.
이 인공지능은 온라인상에서 특정 키워드의 빈도와 증가율 등을 분석해 '잠재신호→약신호→강신호→강하지만 증가율이 약한신호'에 이르는 미래신호(Future Signal) 흐름을 포착할 수 있다. 만약 코로나 관련 키워드 중 '무증상'에 대한 약신호가 잡히면, 향후 관련 내용이 강신호와 같은 메가트렌드로 확산될 수 있기에 사전에 대응할 수 있게 된다.
송 교수는 "빅데이터 분석은 방대한 양의 데이터를 활용해 사회적 문제를 예측하고, 현상에 대한 복잡한 연관관계를 보다 정확하게 밝힐 수 있다"면서 "이런 인공지능 개발 방법을 적용함으로써 코로나뿐만 아니라 다양한 사회적 위험요인을 사전에 예측하고, 대응체계를 마련할 수 있을 것"이라고 말했다.
이 시각 인기 뉴스
한편 이번 연구는 한국데이터산업진흥원이 주관하는 '2020년 데이터바우처 지원사업'의 지원을 받아 수행됐으며, 사업 우수사례로 선정돼 한국데이터산업진흥원장 표창을 받았다.