'초거대 AI의 그늘'…수천억 슈퍼컴, 데이터는 "빅테크나 가능"

머니투데이 변휘 기자 | 2022.08.25 19:00

[MT리포트]초거대 AI 대전 시즌2-④초거대AI 입장료만 1000억

편집자주 | 국내 빅테크들이 초거대 AI 구축 경쟁에 뛰어든지 1년이 지났다. 초거대 AI는 단순히 사람의 말을 이해하는 것을 넘어 이를 바탕으로 시를 쓰고 그림을 그리는 '창의적 AI'로 진화하는 추세다. 국내 초거대 AI 상용화 현주소와 과제를 점검해 본다

슈퍼컴 누리온. /사진 제공=과기정통부

국내외 빅테크 기업들이 경쟁적으로 초거대 AI(인공지능) 개발 및 상용화에 돌입했지만, 빅테크와 중소 스타트업·벤처 간 양극화가 심화할 것이란 우려가 뒤따른다. 초거대 AI는 기존의 AI 모델이 빚어내지 못한 '완벽히 새로운' 성과를 내놓을 것으로 예상되지만, 엄청난 양의 데이터를 빠른 속도로 학습해야 하는 만큼 막대한 컴퓨팅 인프라, 다양한 데이터, 전문 인력 등이 필요해서다. 초거대 AI가 '빅테크의 전유물'이란 평가가 나오는 이유다.

실제로 국내외 빅테크는 초거대 AI 경쟁을 위해 막대한 자본력을 쏟아붓고 있다. 일례로 방대한 양의 데이터를 고속 처리하는 슈퍼컴퓨터는 초거대 AI 경쟁의 핵심 하드웨어 인프라인데, 국내에서도 이를 갖춘 곳은 최상위권 빅테크와 공공기관뿐이다.

━

'초거대AI 핵심' 슈퍼컴…국내선 '삼성전자·SKT·네이버'만 가졌다

━

세계 슈퍼컴퓨터의 성능 정보를 집계하는 '톱500' 프로젝트의 올 6월 순위에 따르면, 세계 100위권에 이름을 올린 국내 민간기업은 삼성전자와 SK텔레콤 뿐이었다.

삼성전자의 'SSC-21'은 초당 25.18페타플롭스(PFlop)의 성능으로 전세계 15위였고, SK텔레콤의 '타이탄(Titan)'은 6.29페타플롭스로 85위였다. 또 톱500 재단에 성능 기록을 제공하지 않아 순위에서 빠졌지만, 네이버(NAVER)도 2020년 초거대 AI '클로바' 개발을 위한 슈퍼컴퓨터 '슈퍼팟'을 구축했으며, 초당 14페타플롭스 이상으로 전 세계 40위권 이내 성능을 보유한 것으로 알려졌다.

이밖에 한국의 슈퍼컴퓨터 중 100위권에 든 것은 기상청의 '구루'와 '마루'(31·32위, 각각 18.00페타플롭스), KISTI(한국과학기술정보연구원)가 운영하는 '누리온(Nurion, 42위, 13.93페타플롭스)가 전부였다.

초거대 AI 개발의 핵심 인프라인 슈퍼컴을 빅테크와 정부만 구축한 것은 막대한 자본력이 수반되기 때문이다. 일례로 과학기술정보통신부는 지난 22일 2년 후 기준 세계 5~10위권 이내의 '슈퍼컴 6호기' 구축에 나선다고 발표했는데, 예비타당성 조사를 통과한 투자액만 무려 2929억원이다. 초거대 AI의 시작을 알린 오픈AI의 AI언어모델 'GPT' 역시 방대한 파라미터(매개변수)를 학습해야 했는데, 2020년 6월 선보인 GPT-3의 경우, 전문가들은 1000억원대의 비용이 투입됐을 것으로 보고 있다.

자본력과 더불어 초거대AI 구축의 핵심 재료인 데이터 확보 역시 스타트업·벤처에는 걸림돌이다. 인간처럼 사고하는 초거대AI를 구축하려면 '공부할 거리'를 광범위하게 제공해야 하는데, 현재로선 공공데이터 외 뾰족한 대안이 없어서다. 반면 이미 방대한 양의 자체 데이터를 축적한 빅테크는 상황이 다르다. 예컨대 네이버는 '하이퍼 클로바' 훈련에 자체적으로 보유한 뉴스, 블로그, 지식인, 카페, 웹문서 등을 활용하기로 했다. 한국어 데이터만 무려 뉴스 50년 분량, 블로그 9년 분량에 달한다.

━

빅테크 독주, 빅테크에도 이롭지 않다…'초거대 AI 생태계' 꾸린다

━

/사진=AI허브 홈페이지

정부는 초거대 AI 연구 양극화의 대안으로 국내 빅테크의 초거대 AI 모델을 중소기업·스타트업에 개방하는 방안을 추진한다. 무료 또는 유료로 대중에게 개방되는 미국 오픈AI사의 GPT-3를 벤치마킹한 것이다. 정부가 지난해 8월과 올 1월, 삼성전자·SK텔레콤·KT·카카오·네이버 등과 '민관 합동 인공지능 최고위 전략대화'를 열어 초거대AI의 생태계 활성화 방안을 논의했고, 그일환으로 올 5월부터 '초거대 AI 모델 활용을 위한 시범 서비스'의 공급자와 사용자를 수시 모집해왔다.

이에 따라 현재까지는 네이버클라우드가 공급자로 선정됐다. 네이버클라우드는 초거대 AI '하이퍼클로바'를 활용해 대화, 질의응답, 요약, 텍스트 생성, 변환 등의 인공지능 기능을 사용자가 응용프로그램인터페이스(API) 형태로 이용할 수 있도록 제공한다. 국내 공공·연구기관, 대학교(원) 중 누구나 대상이 되며, 이달까지 시범 운영 결과를 토대로 향후 중소기업 등까지 지원 대상 확대를 검토하기로 했다.

AI 학습용 데이터 개방에도 속도를 내고 있다. 과기정통부는 2017년부터 AI학습용 데이터 개방을 시작했으며, 지난해 6월 구축한 '인공지능 허브'를 통해 총 381종의 10억6000만건의 데이터를 개방했다. 정부는 산학연 전문가와 데이터 활용기업 등의 의견을 청취해 2020년과 올해 7월 두 차례에 걸쳐 데이터 개방을 진행했으며 "주로 산업적 파급효과가 크고 민간에서 대규모 구축이 어려운 데이터 발굴·공개에 주력하고 있다"고 소개했다.

이와 함께 과기정통부는 한국지능정보사회진흥원(NIA)과 함께 AI 학습용 데이터를 구축·개방하는 이른바 '데이터 댐' 구축 프로젝트를 진행 중이다. 정부는 데이터 댐 사업으로 오는 2025년까지 음성, 자율주행 등 AI 학습용 데이터 1300여 종 구축, 빅데이터 플랫폼 31개 구축, 데이터 바우처 1만6500여건을 지원 함으로써 데이터·AI 경제 시대를 연다는 전략이다.

'초거대 AI의 그늘'…수천억 슈퍼컴, 데이터는 "빅테크나 가능"

[MT리포트]초거대 AI 대전 시즌2-④초거대AI 입장료만 1000억

베스트 클릭